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علم البيانات 


أكثر من 200 نصيحة في علم البيانات وبايثون 


o o‏ لس ۴ ل 
مقدمة المؤلف 

يتطلب كونك عالم بيانات خبرةفي العديد من المجالات. يجب أن تكون جيداني استخدام الأدوات 
المناسبة. مثل 231025 و10[11112387 وnہarعاSk‏ وما إلى ذلك. 

هذه الأدوات لا غنى عنها لدورة حياة تطوير العديد من المشاريع التي تعتمد على البيانات» مما يجعلها 
مهارات أساسية لبدء / الحفاظ على مهنةفي علم البيانات. 

علاوة على ذلك يعد 5Q1‏ أمرًا محوريًا لجميع أدوار علم البيانات تقريبًا اليوم. 

بالإضافة إلى ذلك. يعد سرد البيانات أمرًا ضروريًا بنفس القدر لنقل النتائج والأفكار بشكل فعال إلى 
جمهور أوسع. 

لتبسيط رحلة علم البيانات هذه وجعلها تبدو أقل صعوبة ويمكن الوصول إليها بشكل أكبر. كان Avi‏ 
2 يشارك نصائح يومية لأكثر من 200 يوم. 

وبعد إكمال 200 يوم قام بإنشاء أرشيف ۴ كامل» والذي يسرد جميع المنشورات التي كتبها. 

لقد حاولت قدر المستطاع ان اترجم هذه النصائحفي مجال بايثون وعلم البيانات مع الشرح المناسب 
والكافي» ومع هذا يبقى عملاً بشرياً يحتمل النقص. فاذاكان لديك أي ملاحظات حول هذا الكتاب» فلا 
تتردد بمراسلتنا عبر بريدنا الالكتروني 2122.681112)00011.6011.10 . 

نأمل ان يساعد هذا الكتاب كل من يريد ان يدخلني مجالات علم البيانات ومساعدة القارئ العربي 
على تعلم هذا المجال. اسأل الله التوفيقني هذا العمل لأثراء المحتوى العربي الذي يفتقر أشد الافتقار 
الدعاء. 


د. علاء طعيمة 
كلية علوم الحاسوب وتكنولوجيا المعلومات 
جامعة القادسية 


العراق 


المحتويات 


1 دليل مرئي للتدرج الاشتقاقي العشوائي والدُفعات الصغيرة والدفعي 0) A Visual Guide‏ 


DOCS ل‎ Stochastic, Mini-batch, and Batch Gradient Descent 

List Comprehensions A Lesser-Known Difference و‎ for الفرق الأقل شهرة بين حلقة‎ )2 
LOSSES Between For-Loops and List Comprehensions 
The Limitation of PCA Which Many قيود 504 التي يتجاهلها الكثير في كثير من الأحيان‎ 3 
22 1 222226 30و قم 004 0 عله لون ع قل 8023 03 36 4ع2‎ eos esses SSS sess Folks Often Ignore 
Magic Methods: An طرق السحر: جوهرة قيمة من البرمجة كيانية التوجه لبايثون‎ )4 
1000000010 Underrated Gem of Python OOP 
The Taxonomy Of تصنيف خوارزميات الانحدار التي لا يكلف الكثيرون أنفسهم عناء تذكرها‎ )5 
DTS Regression Algorithms That Many Don't Bother To Remember 
Pandas A Highly Overlooked Approach 10 نهج تم تجاهله بشدة لتحليل إطارات بيانات‎ )6 
Di OTE sS Seh sese seis Analysing Pandas DataFrames 
Bump Visualise The Change In¬ تصور التغيير في الترتيب بمرور الوقت باستخدام مخططات‎ 7 
3 1284403 ل ل اه ل لط ل ا 0 ل‎ OS Rank Over Time With Bump Charts 
Use This مرة أخرى‎ ۴N و‎ ۴P استخدم هذه التقنية البسيطة حتى لا تعاني أبدًا مع 1۴ و 111 و‎ )8 
SI Simple Technique To Never Struggle With TP, TN, FP and FN Again 
The Most Common المفهوم الخاطئ الأكثر شيوعا حول العمليات الداخلية في الباندا‎ )9 
ISRO Misconception About Inplace Operations in Pandas 


0) أنشئ تطبيقات ويب أنيقة مباشرة من Jupyter Notebook‏ باستخدام Build Mercury‏ 


STS Elegant Web Apps Right From Jupyter Notebook with Mercury 
Become A Bilingual Data Scientist SQL كن عالم بيانات ثناتي اللغة مع هذه الباندالترجمات‎ )1 
08 With These Pandas to SQL Translations 
۸ 1یءe۲- ميزة أقل شهرة من 12د»511 لتدريب النماذج على مجموعات البيانات الكبيرة‎ )2 
0000000 Known Feature of Sklearn To Train Models on Large Datasets 
A Simple One-Liner ذات المظهر الاحترافي‎ M سطر واحد بسيط لإنشاء مخططات ط1ا مامه‎ )3 
AA SSDS to Create Professional Looking Matplotlib Plots 
Avoid This Costly Mistake When تجنب هذا الخطأ المكلف عند فهرسة إطار البيانات‎ )4 
ز[ [ [ ز[ ز ز ز ا ا‎ [| ese esses ois ass Indexing A DataFrame 
Command Line Flags 9 إشارات سطر أوامر لتشغيل سكريبتات بايثون بشكل أكثر مرونة‎ 9 )5 
AI SSSR To Run Python Scripts More Flexibly 


Breathing KMeans: A Better and Faster KMeans J أفضل وأسرع بديل‎ :KMeans تنفس‎ (16 
SLi SASSOON Alternative to KMeans 


7 كم عدد الأبعاد التي يجب عليك تقليل بياناتك إليها عند استخدام PCA؟ How Many‏ 


SA. ?Dimensions Should You Reduce Your Data To When Using PCA 
STs Mito Just Got Supercharged With A1! تم شحن ميتو للتو مع الذكاء الاصطناعي!‎ )8 
Be Cautious Before كن حذرا قبل رسم أي استنتاجات باستخدام الإحصائيات الموجزة‎ )9 
59 6 62 لمعف قوم قععة مم عوة فق ع طافه هق لم6 اق عه قمع ة قق6 6 6ع‎ Drawing Any Conclusions Using Summary Statistics 
Use Custom Python Objects In ۸ استخدم كائنات بايثون المخصصة في سياق منطقي‎ 0 
OLESEN e RGR EA Boolean Context 
A Visual Guide To Sampling Techniques دليل مرئي لتقنيات أخذ العينات في التعلم الآلي‎ )1 
OSGOOD in Machine Learning 
You Were Probably Given ربما تم إعطاؤك معلومات غير كاملة حول ثبات الصف‎ )2 
00 Incomplete Info About A Tuple's Immutability 
A Simple Trick خدعة بسيطة تعمل على تحسين جودة مخططات ط1ا 1اMatp بشكل كبير‎ )3 
1ك‎ 00000 That Significantly Improves The Quality of Matplotlib Plots 
TOs A Visual and Overly Simplified Guide to PCA PCA دليل مرئي ومبسط للغاية ل‎ 4 
Supercharge Your Jupyter Kernel With ipyflow ipyflow عزز نواة Jupyterالخاصة بك مع‎ 25 
TS DRO ERODES ERGE ERD SRO DERS 
A Lesser-known Feature of Plotly ميزة أقل شهرة لإنشاء المخططات باستخدام‎ )6 
175 ةق و4 و6‎ STDs sise Creating Plots with 210017 
The Limitation Of Euclidean قيود المسافة الإقليدية التي كثيرا ما يتجاهلها الكثيرون‎ 7 
921107 Distance Which Many Often Ignore 
80...... Visualizing The Impact of Regularization Parameter تصور تأثير معلمة التنظيم‎ )8 
AutoProfiler: ملف تعريف إطار البيانات الخاص بك تلقائيًا أثناء عملك‎ :AutoProfiler )9 
82 00 Automatically Profile Your DataFrame As You Work 
۸ 1.1116 1816 القليل من الجهد الإضافي يمكن أن يحول بشكل كبير مهاراتك في سرد القصص‎ )0 
00000 0001 Of Extra Effort Can Hugely Transform Your Storytelling Skills 
A Nasty Hidden Feature of ميزة مخفية سيئة في بايثون لا يعرفها الكثير من المبرمجين‎ )1 
806 626 اناق عو عل وو وه اع وناعة ول 664 لع لع و 6 ول 6ع وه وه‎ Python That Many Programmers Aren't Aware Of 
Interactively Visualise A Decision Tree With تصور تفاعلي لشجر ةقرار مع مخطط سائكي‎ 2 
SIERO 6031 33 41 قو اف 33 لو و6 6ق‎ 8 0 ES A Sankey Diagram 
Use Histograms with Caution. They استخدم المدرجات التكراري بحذر. إنها مضللة للغاية!‎ )3 
9 1/6 لوه 336 وام هذه 4 1م 5ق لوه واقة عه قم 3م64‎ sedis sise 1 ه80‎ eDiets !Are Highly Misleading 


Three Simple Ways ثلاث طرق بسيطة (فورية) تجعل مخططات التشتت خالية من الفوضى‎ )14 
و0000‎ To (Instantly) Make Your Scatter Plots Clutter Free 
A (Highly) في المرة القادمة‎ KMeans نقطة (عالية) مهمة يجب مراعاتها قبل استخدام‎ )5 
OTs Important Point to Consider Before You Use KMeans Next Time 


Why You Should Avoid Appending Rows T0 لماذا يجب تجنب إلحاق الصفوف بإطار بيانات‎ )6 


0000000 A DataFrame 
Matplotlib Has يحتوي 1011م على العديد من الأحجار الكريمة المخفية. هنا واحد منهم‎ )7 
3|. Numerous Hidden Gems. Here's One of Them 


38( ليع غير بديهي حول قواميس بايثون A Counterintuitive Thing About Python‏ 


1000000 Dictionaries 
Probably The Fastest Way To ربما تكون أسرع طريقة لتنفيذ كود بايثون الخاص بك‎ )9 
000000 Execute Your Python Code 
Are You Sure You Are هل أنت متأكد من أنك تستخدم مصطلحات 2035دالصحيحة؟‎ 0 
LOSSES ?Using The Correct Pandas Terminologies 


41) هل عدم توازن الفئة دائما مشكلة كبيرة يجب التعامل معها؟ Is Class Imbalance Always a‏ 


LLEVA ?Big Problem to Deal With 
A Simple Trick That Will Make Heatmaps حيلة بسيطة تجعل الخرائط الحرارية أكثر أناقة‎ )2 
LUISE More Elegant 
A Visual Comparison Between مقارنة مرئية بين المجاميع المحلية والقائمة على الكثافة‎ )3 
اه وه قل قوف و6 لالة عم كاك 3ك ه 6ق 52 15 للا‎ esis ised Locality and Density-based Clustering 
Why Don't We Call It Logistic لماذا لا نطلق عليه التصنيف اللوجستي بدلا من ذلك؟‎ 4 
100 ?Classification Instead 
A Typical Thing About شيء نموذجي حول أشجار القرار يتجاهله كثيرون في كثير من الأحيان‎ 5 
1] 119 اوناع عق وعطة انع 6 68 668 8 تنو ع واوة وه ل و6 9م نا كا اق ويه لك 6ه عوط‎ Decision Trees Which Many Often Ignore 


Always Validate Your Output تحقق دائمًا من متغير الإخراج قبل استخدام الانحدار الخطي‎ 6 
1 2 [1 4363326 453312 OER E Variable Before Using Linear Regression 


A Counterintuitive Fact About Python Functions حقيقة غير بديهية حول دوال بايثون‎ )7 


123 3 واقة 43 قوقع لله موق ولة 301 ووو ووو امه لوط و10 لو مم ةوه ع3 2م143 1د‎ DOESN له ملو 1 كأ و1 0ل كوه‎ Seeds 
Wطر‎ [1s لماذا من المهم خلط مجموعة البيانات عشوائيًا قبل تدريب نموذج التعلم الآلي غ1‎ )8 
DZS Important To Shuffle Your Dataset Before Training An ML Model 
The Limitations Of Heatmap That Are قيود الخريطة الحرارية التي تبطئ تحليل بياناتك‎ 9 
DTS Slowing Down Your Data Analysis 
The Limitation Of Pearson قيود ارتباط بيرسون الذي يتجاهلها كثيرون في كثير من الأحيان‎ )0 
LAROCHE Correlation Which Many Often Ignore 
Why Are We Typically Advised to Set لماذا ينصح عادة بوضع بذور للمولدات العشوائية؟‎ )1 
0000000 ?Seeds for Random Generators 


2) تقنية تم الاستخفاف بها لتحسين تصورات البيانات الخاصة بك An Underrated Technique‏ 
To Improve Your Data Visualizations‏ 1 


3 أداة بدون كود لإنشاء المخططات والجداول المحورية في A No-Code Tool to Create Jupyter‏ 


LIDS Charts and Pivot Tables in Jupyter 
If You Are Not Able to Code a إذا لم تكن قادرا على برمجة نهج موجه. فجرّب هذا.‎ )4 
LIISA BOUVET SER .Vectorized Approach, Try This 
Why Are We Typically Advised To لماذا يُنصح عادة بعدم التكرار مطلقا عبر إطار بيانات؟‎ )5 
TT ?Never Iterate Over A DataFrame 
قد يكون التلاعب بالكائنات القابلة للتغيير في لغة بايثون محيرًا في بعض الأوقات‎ )6 
LIO Manipulating Mutable Objects In Python Can Get Confusing At Times 
This Small Tweak KMeans يمكن لهذا التعديل الصغير أن يعزز بشكل كبير من وقت تشغيل‎ )7 
LISS Can Significantly Boost The Run-time of KMeans 
Most Python معظم مبرمجي بايثون لا يعرفون هذا عن البرمجة كائنية التوجه في بايثون‎ )8 
LAO Programmers Don't Know This About Python OOP 
Who Said Matplotlib Cannot من قال إن 51260101115 لا يمكنه إنشاء مخططات تفاعلية؟‎ )9 
142 واه كان ومع 4 الاو اقمع اوه و46 06 لاقة وجوه 6 665 م3 مق‎ 66 42 asses as ?Create Interactive Plots 


0 لا تقم بإنشاء مخططات شريطية فوضوية. بدلا من ذلك. جرب المخططات الفقاعية! 00'٤‏ 


LAA الدع عع ا ن وافه لوعو اه أن ملاعو‎ !Create Messy Bar Plots. Instead, Try Bubble Charts 
You Can Add a List As a Dictionary's Key يمكنك إضافة قائمة كمفتاح قاموس (فنياً)!‎ )1 
TAOS SOAKED 1(Technically) 
2/1056 M1 غالبا ما يهمل معظم مستخدمي التعلم الآلي هذا أثناء استخدام الانحدار الخطي‎ )2 
ا 1 2 148ل‎ Folks Often Neglect This While Using Linear Regression 
Hidden Python Libraries That Are 35 مكتبة بايثون مخفية تعتبر جواهر مطلقة‎ 35 )3 
LSOS SSCS ESO ES عد الع ا لم ا‎ Absolute Gems 
Use Box Plots With Caution! استخدم المخططات الصندوقية بحذر! قد تكون مضللة.‎ )4 
115 1 مه عه ق مق قماقة وه و قم وه موقط و قم ووو‎ isis sso .They May Be Misleading 
An Underrated Technique 16 تقنية تم الاستخفاف بها لإنشاء مخططات بيانات أفضل‎ 5 
LSI ا ع ا ا و‎ Sa Create Better Data Plots 
The Pandas DataFrame اضافة إطار بيانات 2882035 الذي ينتظرها كل عالم بيانات‎ )6 
LSA Extension Every Data Scientist Has Been Waiting For 


155 Supercharge Shell With Python Using Xonsh Xonsh مع بايثون باستخدام‎ Shell عزز‎ (67 


8) لا يعرف معظم مستخدمي سطر الأوامر هذه الحيلة الرائعة حول استخدام الترمينال 11056 


LSet Command-line Users Don't Know This Cool Trick About Using Terminals 
A Simple Trick to Pandas حيلة بسيطة لتحقيق أقصى استفادة من الجداول المحورية في‎ )9 
LST ا لطا لو اط ل ل لق اط‎ Make The Most Out of Pivot Tables in Pandas 


Why Python Does Not Offer True لماذالا تقدم بايثون تغليف برمجة كائنية التوجه حقيقي‎ )0 
100 OOP Encapsulation 


1) لا تقلق أبدًا بشأن تحليل الأخطاء مرة أخرى أثناء قراءة ملف CSV‏ باستخدام Pandas Never‏ 


LOU Worry About Parsing Errors Again While Reading CSV with Pandas 
Pandas An Interesting طريقة مثيرة للاهتمام وغير معروفة لإنشاء مخططات باستخدام‎ )2 
106 1/236 2125 2323123 لق‎ SiS and Lesser-Known Way To Create Plots Using Pandas 
Most Python Programmers Don't For-تlقلa لا يعرف معظم مبرمجي بايثون هذا عن‎ 3 
LOZ مه قن كه وه قط كوم اكع طة فطعو‎ Seis عله ده عد مه‎ Know This About Python For-loops 
How To Enable Function Overloading In كيفية تفعيل التحميل الزائد للدوال في بايثون‎ )4 
جع ل قوع مع عو ع6 نوع ولغ عع عع و 6 عن عع و م6 ع6 ع عع ع عاو 6 ون 2 686 6 6 ع6 عن ع6 ج2666 6ع ع عق ع6 6غ ول 6 غ66 عرو ع6 عاوة و6 6 6636 ون 66 عن لق ول 6 ع ع وة و8 623 لل‎ Python 
Generate Helpful Hints As قم بإنشاء تلميحات مفيدة أثناء كتابة كود JIPandasخاص بك‎ )5 
LOSSES TOES You Write Your Pandas Code 
Speedup NumPy Methods 25x With Bottleneck مرة مع‎ 25 NumPy طرق تسريع‎ (6 
LOT 9999999999999990999999999990999999-0 Bottleneck 
Visualizing The Data Transformation of a Neural تصور تحول البيانات لشبكة عصبية‎ (7 
LOSERS DSO SSR TESORO ees Network 
Never !Sourcery لا تقم أبدا بإعادة بناء كودك يدويًا مرة أخرى. بدلا من ذJك« استخدم‎ )/8 
0100 S !Refactor Your Code Manually Again. Instead, Use Sourcery 
Draw The Data You Are Looking For In Seconds ارسم البيانات التي تبحث عنها في ثوان‎ )9 
100000 
Style Matplotlib Plots To Make Them لجعلها أكثر جاذبية‎ MatpIotlib نمط مخططات‎ )0 
1ط1‎ 58 More Attractive 
Speed-up Parquet 1/0 of تسريع إدخال / إخراج باركيه من 292035 بمقدار خمس مرات‎ )1 
74 86 66 قا عاو عاو ق6 ا و6 و6 قوع جاع عن وان عع 6 66866 66 68 0ع و6 قلع ع6 6863 26 عع 5 6ل طق‎ 6 ieee Pandas by 5x 
Open-Source Tools (0 40 أداة مفتوحة المصدر لتعزيز سير عمل 292035 الخاص بك‎ 40 )2 
LISER SERÊ Supercharge Your Pandas Workflow 
Stop Using .Skimpy توقف عن استخدام طريقة الوصف في 5 ببدلا من ذلك. استخدم‎ )3 
LTO 1 ا ا ا ا أن ا ا‎ .The Describe Method in Pandas. Instead, use Skimpy 
The Right Way to Roll Out Library الطريقة الصحيحة لطرح تحديثات المكتبة في بايثون‎ )4 
1] 1/7 08 2323486 438216 83 0 ل 6 82 03813333 ل‎ 9645641 ORS Updates in Python 
Simple One-Liners to Sklearn أسطر بسيطة واحدة لمعاينة شجرة القرار باستخدام‎ )5 
م6 قو عمق 6 6م وه مامه عه 6 6 مه نه عه ع عه ع6 79 لل‎ 6de Preview a Decision Tree Using Sklearn 


6 توقف عن استخدام طريقة الوصف في 5 ببدلاً من ذلك. الستخدم Stop Summarytools‏ 
5ه Using The Describe Method in Pandas. Instead, use‏ م 603 24634 ]1 18 
7 لا تبحث أبدا في نوتبوك اعا رم سل يدويًا مرة أخرى للعثور على الكود الخاص بك Never Search‏ 
LIZ Jupyter Notebooks Manually Again To Find Your Code‏ 


F-strings Are Much More Versatile Than You Think سلاسل "1 أكثر تنوعا مما تعتقد‎ (88 


193 SSS SOG 
Is This The Best Animated Guide على الإطلاق؟‎ KMeans هل هذا هو أفضل دليل متحرك ل‎ (89 
LSAT ESSERE ?To KMeans Ever 
An Effective Yet Underrated تقنية فعالة ولكن تم الاستخفاف بها لتحسين أداء النموذج‎ )9 
0100000 Technique To Improve Model Performance 
Create Data Plots Right From The إنشاء مخططات البيانات مباشرة من الترمينال‎ (0 
7ب 1كإ|/‎ Terminal 
Make Your Matplotlib Plots More أكثر احترافية‎ Matplotlib اجعل مخططات‎ 91 
LISTS ose o Professional 
Hidden Python Libraries That Are 37 مكتبة بايثون المخفية هي جواهر مطلقة‎ 37 2 
LISER OEE OES Absolute Gems 
Preview Your README GitHub الخاص بك محليًا بأسلوب‎ README قم بمعاينة ملف‎ (93 
19) عه ادن مدو ع عم ح و10 نوو قود طم عاط ول عط لل وه ووه ل ا مولع عمو ولط و ةا طول للد سكاع عو‎ File Locally In GitHub Style 
Pandas and Nun Py بإرجاع قيم مختلفة للانحراف المعياري. لماذا؟‎ Num و ر۴‎ Pandas تقوم‎ )94 
LOLs ss ?Return Different Values for Standard Deviation. Why 
Visualize Commit History of Git مع الانيمشن الجميل‎ Git Repo J Commit تصور تاريخ‎ (95 
1 Repo With Beautiful Animations 
Perfplot: Measure, Visualize قم بقياس وقت التنفيذ وتصوره ومقارنته بسهولة‎ :Perfpاot‎ )6 
TOFS and Compare Run-time With Ease 
يمكن أن توفر لك أداة واجهة المستخدم الرسومية هذه ساعات من العمل اليدوي 1ا6 ونط]'‎ 7 
195 وده لله ولاه م ولو ده لوطه وه ماله لع له قمعم وه‎ Tool Can Possibly Save You Hours Of Manual Work 
How Would You كيف يمكنك تحديد التكرارات الضبابية في بيانات تحتوي على مليون سجل؟‎ 8 
LIT nes ?Identify Fuzzy Duplicates In A Data With Million Records 
Stop Previewing .Data Tables أوقف معاينة إطارات البيانات الخام. بدلا من ذJك« استخدم‎ )9 
ET .Raw DataFrames. Instead, Use DataTables 
A Single Line That Will Make Your سطر واحد سيجعل كود بايثون الخاص بك أسرع‎ 0 
2 10 ع1 دل دل م 1م 1 1ل و لل 131 ملعملا‎ 171 ESS Python Code Faster 
202 ممع ع موه‎ Prettify Word Clouds In Python قم بتجميل سحابة الكلمات في بايثون‎ 1 

2) كيفية ترميز الميزات الفتثوية مع العديد من الاصناف؟ How to Encode Categorical‏ 
ess ?Features With Many Categories‏ ع دق 81611 2226 2615 23 (2/0 
3 خريطة التقويم كبديل أغنى للمخطط الخطي Calendar Map As A Richer Alternative (o‏ 
ssi sess Line Plot‏ 1 ا لك ا اا 1 ج22 204 


4 10 أدوات آلية من تحليل البيانات الاستكشافية ستوفر عليك ساعات من العمل (الشاق) 10 
Automated EDA Tools That Will Save You Hours Of (Tedious) Work‏ 205 


5 لماذا قد لا تكون 25ه»1511 خوارزمية التجميع المناسبة دائما Why KMeans May Not Be‏ 


The Apt Clustering Algorithm Always‏ 00 ا 
6] ربمالم یکن تحويل Python‏ إلى LaTeX‏ ڊبھoi‏ البساطة Converting Python To LaTeX Has‏ 
DOSSIER ES Possibly Never Been So Simple‏ 
7 مخطط الكثافة كبديل أغنى لمخطط التشتت 0) Density Plot As A Richer Alternative‏ 
Scatter Plot‏ 0000 
8| 30 مكتبة بايثون (بشكل كبير) لتعزيز إنتاجية علم البيانات الخاصة بك 30 Python Libraries‏ 
DASS to (Hugely) Boost Your Data Science Productivity‏ 
109) سطر واحد 51216215 لتوليد البيانات التركيبية Sklearn One-liner to Generate Synthetic‏ 
DIDNT PESOS Data‏ 
0 ] قم بتسمية بياناتك بنقرة زر Label Your Data With The Click Of A Button‏ 213 


214. Analyze A Pandas DataFrame Without Code تحليل إطار بيانات Pandasبدjg كود‎ ) 1 
Python One-Liner To Create Sketchy سطر واحد بايثون لإنشاء مخططات مرسومة يدويًا‎ ) 2 


21115163 233264532184 مه 1و3 قو 183534 للع قة 13 قفر فده ج1110 2833413311 ووم 233 1 314 11333113 و3‎ Hand-drawn Plots 
× ۴)٤۲ 70 مرة سرع عن طريق تغییر سطر واحد فقط من التعليمات البرمجية‎ 70 Pandas )13 
DLT لعو عع ولد‎ SO Pandas By Changing Just One Line of Code 
An Interactive Guide To Master Pandas In On¢ دفعة واحدة‎ Pa” ds دليل تفاعلي لإتقان‎ ]4 
0000000 Go 
Make Dot Notation More Powerful in Python اجعل التدوين النقطي أكثر قوة في بايثون‎ 5 
220 ل ص ا ص‎ Sa a SSS Saa 
DIDS The Coolest Jupyter Notebook Hack Jupyter Notebook أروع اختراق ل‎ (116 
Create a Moving Bubbles Chart in Python قم بإنشاء مخطط الفقاعي متحرك في بايثون‎ )7 
2 E SD ON O SE o LS E E O DES 
Skorch: Use Scikit-learn API PyTorch على نماذج‎ Scikit-Learn API استخدم‎ :Skorch (118 
DIDACTIC on PyTorch Models 
Reduce Memory Usage Of A /90 بنسبة‎ Pandas تقليل استخدام الذاكرة لإطار بيانات‎ 19 
DIOCESES TOOLSET EIB Pandas DataFrame By 90% 
An Elegant Way To Perform طريقة أنيقة لأداء مهام إيقاف التشغيل في بايثون‎ 0 
111111111111101 Shutdown Tasks in Python 


Visualizing Google Search jgiılڊ تصور اتجاهات بحث ع1ع200) لعام 2022 باستخدام‎ )]1 
ااا‎ aE SOEs Trends of 2022 using Python 


232...Create A Racing Bar Chart In Python قم بإنشاء مخطط شريط السباق في بايثون‎ ]2 


233 Speed-up Pandas Apply 5x with NumPy NumPy مرات مع‎ 5 Pandas Apply تسريع‎ (123 


4) أداة على الإنترنت بدون كود لاستكشاف وفهم الشبكات العصبية 1001 A No-Code Online‏ 


21 0000020202 بببب‎ EEESEDE To Explore and Understand Neural Networks 
What Are Class Methods and When To Üse ما هي طرق الكلاس ومتى يتم استخدامها؟‎ )5 
211111 000 ?Them 
27 Make Sklearn KMeans 20x times faster أسرع 20 مرة‎ Sklearn KMeans اجعل‎ (126 
2383 ووو عد ةوه‎ Speed-up NumPy 20x with Numexpr Numexpr مرة مع‎ 20 NumPy تسريع‎ (127 
A Lesser-Known Feature of Apply Method Pandas ميزة أقل شهر ة لتطبيق طريقة في‎ )8 
DIIGO In Pandas 
An Elegant Way To Perform Matrix Multiplication طريقة أنيقة لأداء ضرب المصفوفة‎ )9 
DR 
Create Pandas DataFrame from Dataclass Dataclass من‎ Pandas قم بإنشاء أطار بيانات‎ )9 
0000000 
Hide Attributes While Printing A 122121355 إخفاء السمات أثناء طباعة كائن من‎ )0 
2/242 8415 66066 3031686646 OSES Dataclass Object 
DANER 7 : List : Tuple :: القائمة: الصف :: المجموعة: ؟اء5‎ )1 
Difference Between Dot and Matmul in NumPy NumPy في‎ Matmul و‎ Dot الفرق بين‎ )132 
DA A AS OA الم ا‎ 
Run SQL in Jupyter To Pandas قم بتشغيل .501 في ءالإمنال لتحليل إطار بيانات‎ )3 
DAO Esas Analyze A Pandas DataFrame 


4) إعادة هيكلة الكود الآلي مع المصادر Automated Code Refactoring With Sourcery‏ ...247 
5] ]5_1 : إضافة سمات إلى تهيئة عملية نشر كائن Add Attributes :Post_init Dataclass‏ 


2245 مد هوج يي‎ vos sess seas To A Dataclass Object Post Initialization 
250 Simplify Your Functions With Partial Functions تبسيط دوالك بدوال جزتية‎ ]6 
When You Should Not Use the head) Pandas عندمالا يجب استخدام طريقة 00قعط في‎ 7 
DSLR EEE Method In Pandas 
DotMap: A Better Alternative to Python بديل أفضل لقاموس بايثون‎ :DotMap (138 
252 2ج 6224 2ع‎ eisai Dictionary 
all in PythonPrevent Wild Imports With منع الاستيرادات السيئة مع __اله__في بايثون‎ )9 
DSSS ل‎ SD SOS Ga 
Three Lesser-known Tips Pandas باستخدام‎ CSV ثلاث نصائح أقل شهرة لقراءة ملف‎ )0 
DSO OER For Reading a CSV File Using Pandas 


The Best File Format To Store A Pandas Pandas أفضل تنسيق ملف لتخزين إطار بيانات‎ )11 
DS 178004 463524694666 2804 4200326841053 2320469553441 و 2 و م42 23م 1م5261‎ DataFrame 


Debugging Made Easy With PySnooper PySnooper تصحيح الأخطاء أصبح شهلا مع‎ )2 


DSSS 7ب‎ 
Lesser-Known Feature of the Merge Pandas الميزة الأقل شهر ة لطريقة الدمج في‎ )3 
DSSS SESE Method in Pandas 
The Best Way to Use Apply() in Pandas Pandas „Jض4Appضاy)0 أفضل طريقة لاستخدام‎ 4 
0000 
Deep Learning Network Debugging أصبح تصحيح أخطاء شبكة التعلم العميق أمرا شهلا‎ )5 
00 Made Easy 
Don't Print NumPy بدلا من ذلك.‎ L0vely-NumPy الستخدم‎ !Nun Py لا تطبع مصفوفات‎ )46 
DO ILOILO REESE .Arrays! Use Lovely-NumPy Instead 
Performance Comparison of Python 3.11 and 3.10 مقارنة أداء بايثون 3.11 وبايثون‎ )7 
0 00010100 Python 3.10 
266..... View Documentation in Jupyter Notebook Jupyter Notebook عرض الوثائق في‎ )/8 
A No-code Tool To Understand Your Data Quickly أداة بدون كود لفهم بياناتك بسرعة‎ )9 
DOT RGSS ESR RLS A SSS SRSA 
269 e ?Why 256 is 256 But 257 is 20) 257 لماذا 256 هو 256 ولكن 257 ليس 257؟‎ )0 
Make a Class Object Behave Like a Function اجعل کائن الكلاس يتصرف مثل الدالة‎ )1 
000000000 
DTIC Lesser-known feature of Pickle Files Pickle ميزة أقل شهرة لملفات‎ 152 
Dot Plot: A Potential Alternative (o المخطط النقطي: بديل محتمل للمخطط الشريطي‎ )3 
0008 Bar Plot 
Why Correlation (and Other لماذا يمكن أن يكون الارتباط (والإحصائيات الأخرى) مضللة.‎ (14 
11100 Statistics) Can Be Misleading 
Supercharge value_counts) Sidetable مع‎ Pandas في‎ value_counts)0 عزز طريقة‎ (15 
111 0100000 Method in Pandas With Sidetable 
2 99 1] مم2‎ Write Your Own Flavor Of Pandas اكتب نكهة 292025 الخاصة بك‎ ] 6 
GitHub Copilot مساعد الترميز 41 الذي يجب عليك استخدامه عبر‎ :0deSquire ])7 
28 CodeSquire: The AI Coding Assistant You Should Use Over GitHub Copilot 
Vectorization Does Not Always Guarantee Better لا يضمن التوجيه دائما أداء أفضل‎ )8 
2001000010 Performance 


In Defense of Match-case Statements in¬ بلغة بايثون‎ match-case دفاعا عن حالات‎ ))9 


0 إثراء النوتبوك الخاص بك مع عناصر تحكم تفاعلية Enrich Your Notebook With‏ 
DOS. 0 Interactive Controls‏ 


Get Notified When Jupyter Cell Has Executed Jupyter احصل على إشعار عند تنفيذ خلية‎ ]1 


000000000000 
2 تحليل البيانات باستخدام كول« ھم بدون كود في Data Analysis Using No-Code Jupyter‏ 
Pandas In Jupyter‏ د ا 1 ود مم15 112 جم 3332711 21233302423 332 182206430306513 11/233486 290 


3) استخدام القواميس بدلا من شروط Using Dictionaries In Place of If-conditions If‏ ..293 
4 مسح إخراج الخلية في نوتبوك ارم Ju‏ أثناء وقت التنفيذ Clear Cell Output In Jupyter‏ 


DISS sese Î Notebook During Run-time 
A Hidden Feature of Describe Method In Pandas Pandas ميزة خفية لوصف طريقة في‎ )/5 
0 
Use Slotted Class To [Improve الستخدم 1955:) 5106660 لتحسين كود بايثون الخاص بك‎ )166 
000 Your Python Code 
Stop Analysing Raw Tables. أوقف تحليل الجداول الخام. الستخدم التصميم بدلا من ذلك!‎ ]) 7 
00000 !Use Styling Instead 
Explore CSV Data Right From The مباشرة من الترمينال‎ CS۷ استکشف بيانات‎ (8 
SUDO AER Terminal 
304 1ن‎ Generate Your Own Fake Data In Seconds أنشخ بياناتك المزيفة في ثوان‎ 9 
Import Your Python Package as a قم باستيراد حزمة بايثون الخاصة بك كوحدة نمطية‎ 0 
000000000 ا‎ Module 
IOS Specify Loops and Runs In % %timeit % % tim eit حدد الحلقات ونفذها في‎ 1 
Waterfall Charts: A Better مخططات الشلال: أفضل بديل للمخطط الخطي / الشريطي‎ 2 
000 Alternative to Line/Bar Plot 
Hexbin Plots As A Richer مخططات ہنط×ع 8 كبديل أكثر ثراء للمخططات المبعثرة‎ 3 
231/15498150374 8 ل ا ا 60و كزان‎ ss Alternative to Scatter Plots 
Importing Modules Made Pyforest أصبح استيراد الوحدات النمطية سهلا باستخدام‎ 4 
SLOSS EOE Easy with Pyforest 
Analyse Flow Data With Sankey تحليل بيانات التدفق باستخدام مخططات سائكي‎ 5 
00000 Diagrams 


6) تتبع الميزات أصبح بسيطا في محولات Feature Tracking Made Simple In Sklearn‏ 
Sklearn Transformers‏ واق وو ع لقع دعا 6 6ع 6لا 6ع 6 جع 66 36و وا ل نع 6ع غ6 6 ع 1ن جا 6648 66ل و ناا قن ع6 666 96 66 861816 86 668 84 268 1/7 لد 


319..Lesser-known Feature of f-strings in Python ميزة أقل شهرة لسلاسل آفي بايثون‎ 7 
Don't Use time.time)( To Measure لا تستخدم ()122©.122) لقياس وقت التنفيذ‎ ]8 
8 Execution Time 


Now You Can Use Op¢en۸AI1I مع واجهة برمجة تطبيقات‎ 411-٠ ۴٤ يمكنك الآن استخدام‎ )9 
000000 DALL‘E With OpenAI API 


0] مخطط الانحدار الخطي متعدد الحدود أصبخ شهلا مع Polynomial Linear Seaborn‏ 


FDIC Regression Plot Made Easy With Seaborn 
Jupyter Notebook Retrieve Previously استرجع المخرجات المحسوبة مسبقا في‎ )1 
SZC Computed Output In Jupyter Notebook 
326......Parallelize "Pandas Apply()'' With Swifter Swifter مع‎ Pandas Apply(0) موازاة‎ (182 
Create DataFrame Hassle-free إنشاء إطار بيانات خالي من المشاكل باستخدام الحافظة‎ )3 
132/17 118 6301311 1 6 ا ل‎ 16 4 sa o By Using Clipboard 
Run Python Project Directory As A Script قم بتشغيل دليل مشروع بايثون كسكريبت‎ )4 
00000 


329... Inspect Program Flow with IceCream IceCream فحص تدفق البرنامج بالستخدام‎ )5 
Don't Create Conditional Columns Apply مع‎ Pandas لا تقم بإنشاء أعمدة شرطية في‎ 6 


000 in Pandas with Apply 
303 2 6013824610 ملل ع‎ Pretty Plotting With Pandas Pandas التخطيط الجميل مع‎ 7 
Build Baseline Models Effortlessly With Sklearn قم ببناء نماذج أساسية بسهولة مع‎ )8 
000 Sklearn 
Fine-grained Error Tracking With Python Python 3.11 تتبع الأخطاء بدقة باستخدام‎ 9 
000000000 3.11 
Find Your Code öةlJauبJupyter اعثر على الكود الخاص بك مختبثًا في بعض النوتبوك من‎ )0 
SITs Hiding In Some Jupyter Notebook With Ease 
Restart the Kernel Without Losing Variables أعد تشغيل الكيرنل دون فقد المتغيرات‎ )//1 
SISA ور د‎ SSIS ASSESSES SS 
339...... How to Read Multiple CSV Files Efficiently بكفاءة‎ CSV كيف تقرأعدة ملفات‎ )192 
Elegantly Plot the Decision Boundary of a Classifier ارسم بأناقة حدود قرار المصنف‎ )3 
0000 
An Elegant Way to Import Metrics From Sklearn طريقة أنيقة لاستيراد المقاييس من‎ )])4 
SADIE ORTA RRS 6 6 لامع حلم وه‎ Sklearn 
Pandas Configure Sklearn To Output Pandas تكوين 122وع5121 لإخراج إطار بيانات‎ )/5 
234 3 ل لقاع 4 ل ههه لج عه ع 6 له و عه لو وو‎ OSes: DataFrame 
Display Progress Bar With Apply) in Pandas في‎ Apply) عرض شير يط التقدم مع‎ )6 
SAA ccc wos Pandas 
SAS Modify a Function During Run-time تعديل دالة أثناء وقت التنفيذ‎ )7 
346..... Regression Plot Made Easy with 210617: 210017 مخطط الانحدار أصبحت سهلة مع‎ )])8 


0)] قم بتعديل نوع بيانات الأعمدة المتعددة مرة واحدة Alter the Datatype of Multiple‏ 


08 Columns at Once 
Datatype For Handling Missing Pandas نوع البيانات لمعالجة أعمدة القيم المفقودة في‎ )1 
SSUES ROSSER Valued Columns in Pandas 
SSL ess Parallelize Pandas with Pandarallel Pandarallel مع‎ Pandas قم بموازنة‎ ]2 
Why you should not dump DataFrames (0 CSV لماذالا يجب خزن إطار البيانات في ملف‎ 3 
2-000 a CSV 
354 Save Memory with Python Generators حفظ الذاكرة مع مولدات بايثون‎ 4 


Don't use print() to debug لا تستخدم (1:1210م لتصحيح التعليمات البرمجية الخاصة بك.‎ ]5 
SSDs acess aies sa laie sed .your code 


6] ابحث عن كود بايثون غير المستخدم بسهولة Find Unused Python Code With Ease‏ 356 
7 عرف نوع البيانات الصحيح للأعمدة الفكتوية Define the Correct DataType for Categorical‏ 


35/7 446 2364 446 ممه وق و مم3 قد لل عو قو مومه و11 عق 6ه 3م 6ه 14 134 م648 3 لق 1436 قم 26م 3 لكو‎ sass Columns 
Transfer Variables Between Jupyter Jupyter Notebooks نقل المتغيرات بين‎ 8 
ببب1ب002030-1 ا‎ Notebooks 
Why You Should Not Read CSVs with Pandas مع‎ CSV لماذالا يجب عليك قراءة ملفات‎ )9 
3II Pandas 
SOU iiss Modify Python Code During Run-Time تعديل كود بايثون أثناء وقت التنفيذ‎ )9 


362. Handle Missing Data With Missingno Missingno التعامل مع البيانات المفقودة مع‎ 0 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 16 


1 دليل مرئي للتدرج الاشتقاقي العشوائي والدُفعات الصغيرة 
والدفعي A Visual Guide to Stochastic, Mini-batch, and‏ 
Batch Gradient Descent‏ 
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#1 
Stochastic 
Gradient 
Descent 


#2 
Mini-Batch 
۴ ١ Gradient سم‎ 
© © © © | Descent )© © | 
زعها (هوههه|‎ 


Training Data 
Repeat for 
5 ال‎ 
e000) عمس‎ 
Pee weights ج‎ 
التدرج الاشتقاقي غ+دءه0»5 201626 هي خوارزمية تحسين مستخدمة على نطاق واسع لتدريب‎ 
.machine learning models نماذج التعلم الآلى‎ 


MINI-BATCH 
of data 


0 
° 


يمثل التدرج الاشتقاقي العشوائي 560025610 والدفعات الصغيرة داء26ط-ندندم والدفعي داء26ط ثلاثة 
أشكال مختلفة من التدرج الاشتقاقيء وتتميز بعدد نقاط البيانات المستخدمة لتحديث أوزان النموذج 
model weights‏ عند كل تكرار .iteration‏ 
** التدرج الاشتقاقي العشوائي غدءءدع0 غمء ذل ممع عتامهطءه56: قم بتحديث أوزان الشبكة باستخدام 
نقطة بيانات واحدةفي كل مرة. 
avichawla.substack.com‏ :0 


Repeat for 
all points and epochs 
Stochastic ONE 
Gradient 


data point 


Update‏ م Descent‏ م © © م( 
9© 2 © عم ظ 
weights‏ تت © © © © 2 


Training Data 


** المزايا: 
ه أسهلفي الذاكرة. 
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يمكن أن تتقارب وعد كمه بشكل أسرعفي مجموعات البيانات الكبيرة ويمكن أن تساعدني 
تجنب الحدود الدنيا المحلية 121111712 10221 بسبب التذبذبات 0501112025. 
** العيوب: 
ه الخطوات الصاخبة يمكن أن تؤدي إلى تقارب أبطأ وتتطلب المزيد من الضبط للمعلمات 
الفائقة .hyperparameters‏ 
م مكلف حبايًا بسب التدذيغات المتكررة: 
© يفقد ميزة العمليات الموجهة .vectorized operations‏ 
** التدرج الاشتقاقي ذو الدفعات الصغيرة :Mini-batch gradient descent‏ قم بتحديث أوزان 
الشبكة باستخدام بضع نقاط بياناتفي كل مرة. 


:.; avichawla.substack.com 


Mini- Batch 
Gradient 


© © © © Descent Update ز2‎ 
© © 6 © weights 


Training Data 


**» المزايا: 
ه أكثر كفاءة من الناحية الحسابية من التدرج الاشتقاقي الدفعي بسبب فوائد التوجيه. 
ه تحديثات أقل ضوضاء من التدرج الاشتقاقي العشوائي. 
** العيوب: 
ه يتطلب ضبط حجم الدفعة معزو طءغ2ط. 
ه قد لا يتقارب مع الحد الأدنى العالمي ندصنصندص اهطهآع إذا لم يتم ضبط حجم الدفعة 


جیدا. 


** التدرج الاشتقاقي ذو الدفعات خدءءءمل غمء نلممع طءBat:‏ قم بتحديث أوزان الشبكة باستخدام 
البيانات بالكامل مرة واحدة. 
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© © © © 
© © © © 


Training Data 


** المزايا: 
ه اتخاذ خطوات أقل صاخبة نحو الحدود الدنيا العالمية. 
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© يمكن الاستفادة من التوجيه 7760]011226101. 
0 ينتج تقاربا أكثر استقرارا. 
** العيوب: 
ه يفرض قيود الذاكرة لمجموعات البيانات الكبيرة. 
3 بطيء حسابيًا حيث يتم حساب العديد من التدرجات. ويتم تحديث جميع الأوزان مرة واحدة. 


دورك الآن: ما هي بعض المزايا / العيوب الأخرى التي يمكنك التفكير فيها؟ اسمحوا لي أن أعرف. 


المقالة: 
https://avichawla.substack.com/p/a-visual-guide-to-stochastic-mini‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/Gradient-Descent- Visual 
Guide.ipynb 
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List Comprehensions و‎ for الفرق الأقل شهرة بين حلقة‎ 2 
A Lesser-Known Difference Between For-Loops and 


List Comprehensions 


كا 


في الكود أعلام قامت حلقة 40 م105-100 بتحديث المتغير الحالي (2)؛ لكن قائمة الفهم 1156 
comprehension‏ لم تقم بذلك. يمكنك تخمين لماذا؟ اقرأ المزيد لتعرف. 


يتم التعامل مع متغير الحلقة بشكل مختلففي 5م105-100 و list comprehensions‏ 


تقوم حلقة 405-100 بتسريب متغير الحلقة إلى النطاق المحيط. بمعنى آخر» بمجرد انتهاء الحلقةء لا 
يزال بإمكانك الوصول إلى متغير الحلقة. 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


يمكننا التحقق من ذلك أدناه: 


دة م100 


في مقتطف الكود الرئيسي أعلاه» نظرًا لوجود متغير الحلقة (1) بالفعل . تمت الكتابة فوقه في كل تكرار. 


لکن 25101عطاع:ة ممه 156[ لا تعمل بهذه الطريقة. بدلاً من ذلك. يظل متغير الحلقة دائمًا محليّافي 115 
.comprehension‏ لا يتم تسريبه للخارج ایا 


يمكننا التحقق من ذلك أدناه: 


E 12 loop_var in ra 


print (loop_var) 
NameError: name 'loop_var' defined 


Error‏ س 


هذا هو السببفي أن المتغير الحالي (ة)ء والذي تم استخدامه أيضًا داخل قائمة الفهم. ظل دون تغيير. 
حدد استيعاب القائمة متغير الحلقة (2) محليّافي نطاقه. 


دورك الآن: ما هي بعض الاختلافات الأخرى التي تعرفها بين الحلقات التكرارية وقائمة الفهم؟ 
المقالة: 
https://avichawla.substack.com/p/a-lesser-known- difference-between‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/for-loop-and-list-comprehension-diff.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


3 قيود ۴٣۸‏ التي يتجاهلها الكثير في كثير من الأحيان عط]1' 
Limitation of PCA Which Many Folks Often Ignore‏ 


N avichawla.substack.com 


Linearly 
inseparable 


Linearly 
separable 
data 


تخيل أن لديك مجموعة بيانات تصنيف 0262566 012551862]1012. إذا كنت تستخدم P٣٥۸‏ لتقليل 
الأبعاد. فمن المفترض بطبيعتها أن بياناتك قابلة للفصل خطيًا ع[ددمء: راتمعصنا. 


ولكن قد لا يكون هذا هو الحال دائما. وبالتالي» ستفشل )في مثل هذه الحالات. 


Linearly 
Separable Dataset 


Linearly 
Inseparable Dataset 
فإنني أوصي بشدة بقراءة إحدى مشاركاتي السابقة: دليل مرئي‎ ٥4 إذا كنت ترغبفي قراءة كيفية عمل‎ 
. €۸ ومبسط للغاية ل‎ 
لحل هذه المشكلة. نستخدم عاءت [عدمعء! (أو 004 12ء ممع ؟1). الفكرة هي:‎ 


قم بإسقاط البيانات إلى مساحة أخرى باستخدام دالة [ع:ععا. حيث تصبح البيانات قابلة للفصل خطيًا. 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


تطبيق خوارزمية :)2 القياسية على البيانات المحولة. 


على سبيل المثالءفي الصورة أدناهء البيانات الأصلية لا يمكن فصلها خطيًا. لا يؤدي استخدام 20 
مباشرة إلى أي نتائج مرغوبة. 


x avichawla.substack.com 


Linearly 
inseparable 
data 


د 


35 


Data still 
linearly 
inseparable 


ولكن كما ذكر أعلاه. يحول 1565617004 أولا البيانات إلى مساحة قابلة للفصل خطيًا ثم يطبق )12 
مما ينتج عنه مجموعة بيانات قابلة للفصل خطيًا. 
N avichawla.substack.com‏ 


Linearly 
1115 برع‎ 1 


Linearly 
separable 
data 


يوفر 5دء5[1 غلاق wrapper‏ ل .Kerne]PCA‏ يدعم العديد من دوال 1٤٢٣ع‏ الشائعة الاستخدام. 
يمكنك الحصول على مزيد من التفاصيل هنا: وع1(0 512دع511. 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


بعد قولى هذاء تجدر الإشارة أيضًا إلى أن وقت تشغيل ۲٥۸‏ هو تكعيبى ناء بالنسبة إلى عدد أبعاد 
البيانات. 

Runtime : 0) تلم‎ + 03( 

d : dimensions 


n : samples 
عندما نستخدم ۸© 11۲٣ء عادة يتم إسقاط البيانات الأصلية (في أبعاد ) إلى مساحة أبعاد جديدة‎ 


أعلى (بأبعاد 1 ؛ د<م). لذلك. فهو يزيد من وقت التشغيل الإجمالى 26 طناة ve211‏ ل .PCA‏ 


المقالة: 
https://avichawla.substack.com/p/the-limitation-of-pca-which-many‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/Kernel-PCA-vs-PCA.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 24 


4) طرق السحر: جوهرة قيمة من البرمجة كيانية التوجه 
لبايثون Magic Methods: An Underrated Gem of‏ 
Python OOP‏ 


6 


avichawla.substack.com‏ ل 


Usage/Description 


Invoked before __init__ to 
allocate memory to object 
Invoked after __new__ to 
initialise the object 
Invoked when str(obj) or 
print(obj) is used 


Invoked when int(obj) is used 


Invoked when len(obj) is used 


Il Invoked when class object is 
0 called as a function: objO 


: Invoked when object 
_ getitem__ is indexed: obj[key] 


8 Invoked when object is indexed 
—setifeEM_ بصا‎ vale 


: Invoked when object's index 
delitem is deleted: del obj[key] 
: Invoked when the in operator 
__contains__ 
Invoked when object is used in 
boolean context: if obj or bool(obj) 
Invoked when object is 
iterated: for x in obj 
Invoked when == operator is used to 
compare two objects: obj1 == obj2 
Invoked when I= operator is used to 
compare two objects: obj1 I= obj2 
Invoked when two objects 
are added: obj1 + obj2 
Invoked when two objects are 
multiplied: obj1 * obj2 
Invoked to compute absolute value of 
object: abs(obj) 
Invoked when unary operator - 
is used on an object: -obj 


Invoked when ~(tilde) operator 
is used to invert an object: ~obj 


الطرق السحرية (وتسمى أيضًا لطاع إملصدك) هي طرق خاصة تم تحديدها داخل تطبيق كلاس 
بايثون 1255ء Python‏ . 


في ملاحظة جانبية» كلمة "1011061" هي اختصار ل .Double Underscore‏ 
وهي مُثبتة مسبقا ومثيتة بشرط سفلية مزدوجة. مثل 16۴١‏ __و2+ه5 وغيرها الكثير. 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 26 
على سبيل المثال» لنفترض أننا نريد تحديد سلوك مخصص لإضافة كائنين من كلاسنا ( + 6531 
.(obj2‏ 


من الأمور الواضحة والمباشرة القيام بذلك عن طريق تحديد طريقة إهطاء. على سبيل المثال 
es )(‏ زطە_a44.‏ وتمرير الکائنین كمعامل ٤۸٤ص‏ ںuع۲ھ‏ لها. 


Logic to 


add objects 


add_objects(self, other): 
new_a f.a other .a 


MyClass (new_a) 


Invoke 
method obj1 = MyClass (1) 


5 02 MEE) 
obj1.add_objects (0b j2) 
بينما ستنجح الطريقة المذكورة أعلاه» فإن استدعاء طريقة ما بشكل صريح لإضافة كائنين ليس أنيقًا مثل‎ 
i+ استخدام عامل التشغيل‎ 


هذا هو المكان الذي تأتي فيه الطرق السحرية.ني المثال أعلاه. سيسمح لك تنفيذ الطريقة السحرية _ _ 
4 بإضافة الكائنين باستخدام عامل + بدلا من ذلك. 


وبالتالي» تسمح لنا الطرق السحرية بجعل كلاستنا أكثر سهولة وأسهلفي التعامل معها. 
نتيجة لذلك. يعد الوعي بها أمرًا بالغ الأهمية لتطوير خطوط أنابيب أنيقة وبديهية. 


تلخص الصورة المرئية حوالي 20 طريقة سحرية شائعة الاستخدامفي بايثون. 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


دورك الآن: ما هي الأساليب السحرية الأخرى التي ستدرجها هنا؟ أي منها تستخدم أكثر؟ اسمحوا لي أن 
أعرف. 


المقالة: 
https://avichawla.substack.com/p/magic-methods-an-underrated-gem-of‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/20-Magic-Methods.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


5( تصنيف خوارزميات الانحدار التي لا يكلف الكثيرون أنفسهم 
عناء تذكرها The Taxonomy Of Regression Algorithms‏ 
That Many Don't Bother To Remember‏ 


تسمح لنا خوارزميات الانحدار 5دطط2150 «5زووعع166 بنمذجة العلاقة بين متغير تابع 


eاbۆvaria dependent‏ ومتغير واحد أو أكثر من المتغيرات المستقلة blesؤvaria .independent‏ 


5 5 ل 
avichawla.substack.com‏ „. 


Regression Type Description Equation/Loss Function 


j = wz +b 
Loss = J; A 
E) 
DD CD اك‎ 
Û = wı + waza + °°° +b 
جر‎ - 0 
Loss = سك رح‎ 


15 و = Loss‏ 
5 = 
1= 
| و + الاسم ا = Loss‏ 
i=1‏ 


~2 
BOTH L1 and L2 Loss = y كد‎ +۸((1— a) رحعء + نس رحء»‎ lil) 
Reqularization L2 L1 


1 
1 + e -(wızı+waz2+-.-+0) 


P)*) = 
ES 
A gscorej 


One independent (x) and 
one dependent (y) variable 


Polynomial features 
رين‎ 2. x") and 
one dependent (y) variable 


Arbitrary features 
Pe e xı) and 
one dependent (y) اا‎ 


Linear Regression 
with L2 Regularization 


Linear Regression with 
L1 Regularization 


with 


و ا 
BINARY outcome probability‏ 
One (or more) independent‏ 


LEE n 
probabilities 


Simple Linear 
Regression 


Polynomial Linear 
Reqression 


Multiple Linear 
Regression 


Ridge Regression 


Lasso Regression 


Elastic Net 


Logistic Regression 


Multinomial Logistic 
Regression 


(or Softmax Regression) 


Regularized 
Regression 


Categorical 
Probability 


بعد تقدير معلمات نموذج الانحدار» يمكننا الحصول على نظرة ثاقبة حول كيفية تأثير التغييراتفي أحد 


المتغيرات على الآخر. 


نظرًا لاستخدامها على نطاق واسعفي علم البيانات 5016206 1262: فإن الوعي بأشكالها المختلفة أمر بالغ 
الأهمية لنقل الخوارزمية التى تستخدمها بدقة. 


فيما يلي ثمانية من أكثر خوارزميات الانحدار القياسية الموضحةفي سطر واحد: 


* الانحدار الخطي Linear Regression‏ 
© الانحدار الخطي البسيطده1زدعتمعء:7 112621 ماpصSi:‏ متغير واحد مستقل (×) ومتغير 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 28 


ه الانحدار الخطي متعدد الحدودههزووعععع 18 :Polyn oma] Linear‏ ميزات كثيرة 
الحدود وع2611ع1 201772013131 ومتغير واحد تابع .)y(‏ 
ه الانحدار الخطي المتعدد Linear Regression‏ eاMultip:‏ ميزات عشوائية 
Arbitrary features‏ ومتغير واحد تابع .)y(‏ 
% الانحدار المنتظم Regularized Regression‏ 
o‏ انتحدار اللانسو :Lasso Regression‏ الانحدار الخطي مع تنظيم .L1‏ 
ه انحدار ریدجده‌نووءعمR‏ مع ن8: الانحدار الخطي مع تنظيم 12. 
ه الشبكة المرنة ٤ء‏ ء81256: الانحدار الخطي مع تنظيم كلا من 1] و 12. 
**» توقع الاحتمالية الفتوية Categorical Probability Prediction‏ 
© الانحدار اللوجستي 2ه1ؤوععع» ش16 ع قتع م.[: توقع احتمالية النتائج الثنائية. 
ه الانحدار اللوجستي متعدد الحدود Multinomial Logistic Regression‏ (أو 
انحدارعتهدسكه5 )Softmax Regression‏ : توقع احتمالات فئوية متعددة. 


دورك الآن: ما هي خوارزميات الانحدار الأخرى التي ستدرجها هنا؟ 


المقالة: 
https://avichawla.substack.com/p/the-taxonomy-of-regression-algorithms‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/Regression-Algo-Taxonomy.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


6) نهج تم تجاهله بشدة لتحليل إطارات بيانات ۸ 5ه0مهدط2 
Highly Overlooked Approach To Analysing 25‏ 


DataFrames 


5 avichawla.substack.com 


2 
3 
4 
5 
6 
7 
8 
9 


هد الهم 
© هه 


بدلاً من معاينة إطارات البيانات 12321125165 الأولية, يمكن أن يجعل التصميم تحليل البيانات أسهل 
وأسرع بكثير. إليك الطريقة. 


ءامنا[ هو 1101 قائم على الويب. يتم تقديم أي شيء تطبعه باستخدام 1110/1 و055. 
هذا يعني أنه يمكنك تصميم مخرجاتك بعدة طرق مختلفة. 


لتصميم إطارات بيانات 1212025. استخدم (عالا01.56) A۴1‏ 5671108. نتيجة لذلك. يتم تقديم 
DataFrame‏ بتصميم محدد. 


اقرأ المزيد هنا: التوثيق. 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/a-highly-overlooked-approach-to-analysing‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Style-DF.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


7 تصور التغيير في الترتيب بمرور الوقت باستخدام مخططات 
Bump Visualise The Change In Rank Over Time With‏ 
Bump Charts‏ 
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Bar Chart 


Cluttered 
and difficult 
to understand 


Year 


Bump Chart 


0 تردحء61 
EBA)‏ 
understand‏ 


5 


عند تصور التغييرفي الترتيب بمرور الوقت عدصذا :اع077 52[1, قد لا يكون استخدام المخطط الشريطي 
bar chart‏ مناسيًا. بدلاً من ذلك جرب .Buıp Charts‏ 


يتم استخدامها بشكل محدد لتصور ترتيب العناصر المختلفة بمرور الوقت. 
على عكس المخطط الشريطي الشائع الاستخدام» فهي واضحة وأنيقة وسهلة الفهم. 
دورك الآن: ما هي بعض البدائل الأخرى للمخططات الشريطية التي يمكنك تجربتهاني مثل هذه الحالات؟ 


ابحث عن الكود الخاص بإنشاء 1216© صن طني بايثون هنا: .Notebook‏ 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/a-simple-one-liner-to-create-professional‏ 
المصدر: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/LovelyPlots-Professional-Matplotlib.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


8) استخدم هذه التقنية البسيطة حتى لا تعاني أبدًا مع 1۶ و 
FN g FP 9 TN‏ مرة أخرى Use This Simple Technique ‘1o‏ 
Never Struggle With TP, TN, FP and FN Again‏ 
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EN 7 2 
1 Did the model get it right? — Yes (True) (a1. Did the model get it right? — No (False) 
Q2. What was the prediction? — Positive ظ‎ Q2. What was the prediction? — Positive 


TRUE POSITIVE FALSE POSITIVE 


أ 


rue False 
Positive (TP) Positive (FP) 


False True 
و‎ Negative (FN) | | Negative (TN) 


Q1. Did the model get it right? — No (False) Q1. Did the model get it right? — Yes (True; 1 


3 
0 
چ 
ج 


Q2. What was the prediction? — Negative Q2. What was the prediction? — Negative 
FALSE NEGATIVE TRUE NEGATIVE 


هل غالبا ما تكافح لتسمية تنبؤات النموذج مثل ۲۲ و ۲×٩‏ و ۴۲ و ۴١‏ وفهمها؟ إذاكانت الإجابة بتع 
فإليك دليل بسيط لمساعدتك. 


عند تصنيف أي توقع» اسأل نفسك سؤالين: 

هل فهمها النموذج بشكل صحيح؟ الإجابة: نعم (أو صواب) / لا (أو خطأ). 

ما هي الفئة المتوقعة 1255 0ع]876010؟ الجواب: إيجابي / سلبي. 

بعد ذلك اجمع الإجابتين السابقتين للحصول على التسمية النهائية. 

على سبيل المثال» لنفترض أن الفئة الفعلية والمتوقع كان إيجابيًا. 

هل فهمها النموذج بشكل صحيح؟ الجواب نعم (أو صحيح). 

ما هي الفئة المتوقعة؟ الجواب إيجابي. التسمية النهائية: 2051115713 .TRUE‏ 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


كتمرين» حاول تسمية التنبؤات التالية. اعتبر فئة "026" على أنها فئة "إيجابي" و "الكلب" على أنها "سلبية". 
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علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


در 
01 


9) المفهوم الخاطئ الأكثر شيوعا حول العمليات الداخلية في 
الباندا The Most Common Misconception About‏ 


Inplace Operations in Pandas 
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ES 


df.reset_index() 10 ps (Fast) 
262 js (Slow) 


222 ıs (Slow) 
1088 js (Slow) 
1058 ıs (Slow) 


df .dropO0 


سس سس 


غالبًا ما يقوم مستخدمو 222025 بتعديل عدنتته1022آفي مكانهم امد متوقعين أداءً أفضل. ومع 
للك قد لا تون فعالة دافا إليكم السبب: 


تقارن الصورة وقت التنفيذ للعمليات الموضعية 12613206 وغير الموضعية ع126م-202-12.في معظم 
الحالات» تكون العملياتفي الموقع بطيئة. 


لماذا؟ 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


خلاقًا للاعتقاد الشائع» فإن معظم العمليات الموضعية لا تمنع إنشاء نسخة جديدة. كل ماني الأمر أن 
ع136م12 يعيد النسخة إلى نفس العنوان. 


ولكن أثناء هذه المهمة. تقوم 95 بإجراء بعض الفحوصات الإضافية (Setting With Copy)‏ 
للتأكد من تعديل 21۴۲4۳١‏ بشكل صحيح. قد تكون هذه»ني بعض الأحيان» عملية مكلفة. 


ومع ذلك. بشكل عام» ليس هناك ما يضمن أن تكون العمليةفي الموقع أسرع. 


علاوة على ذلك لا تسمح العمليات الموضعية 1261206 بتسلسل عمليات متعددةء مثل هذا: 
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Method chaining‏ ڪڪ 


df.reset_index().fillna(0) .drop_duplicates )( 


No chaining 
with Inplace 


df.reset_index ( True) 
GE. EULURa (O, True) 


df.drop_duplLicates ) True) 


المقالة: 
https://avichawla.substack.com/p/the-most-common-misconception-about‏ 
الكود: 

https://github.com/ChawlaAvi/Daily-Dose-of-Data 


Science/blob/main/Pandas/inplace-noninplace-runtime.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 
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0) أنشئ تطبيقات ويب أنيقة مباشرة من ءارما[ 
Notebook‏ باستخدام Build Elegant Web Apps Mercury‏ 
Right From Jupyter Notebook with Mercury‏ 


يعد استكشاف ومشاركة رؤى البيانات باستخدام ها رمن[ أمرًا شائعًا جد لأصحاب البيانات. ومع ذلك 
يعد التطبيق التفاعلي أفضل لمن لا يهتمون بكودك ويهتمون بنتائجك. 


< avichawla.substack.com 


Notebook 


*» MERCURY 


Mercury App 
What is your name? 
Avi 


Mercury Welcome Avi. 
web app Number of points 


5 


Linear Data 


Linear Data Plot 


فى حين أن إنشاء العروض التقديمية أمر ممكن. إلا أنه قد يستغرق وقنًا طوياا. أيضاء على المرء أن يغادر 
.Jupyter Notebook‏ 


بدلا من ذلك جرب 9661م11[. إنها أداة مفتوحة المصدر تقوم بتحويل 110465001 u py ter‏ الخاص 
بك إلى تطبيق ويبفي أي وقت من الأوقات. وبالتالي. يمكنك إنشاء تطبيق الويب دون مغادرة 
.Notebook‏ 


يتم عرض عرض توضيحي سريع أدناه: 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


MERCURY‏ = سويت kesane‏ دوه jupyter Mercury Demo tat weap: a mırnas‏ مت 
ee‏ مداعرج عمج داع و هع aor‏ 


Mercury App 5 
What is your name? Linear Data App 
Welcome Avi. 
Number of / امم‎ 
E 
0 ب‎ 
Select color a 
ee 
. 
ري‎ 
ا‎ 
ر‎ 
` FETS EES 2 


علاوة على ذلك فإن جمیع تحديثات 11066506016 عار م[ یتم الرجوع إليها فورًافي تطبيق وا۲ .M‏ 


على عكس انلصهعءء المعتمد على نطاق واسع» يمكن أن تكون تطبيقات الويب التي تم إنشاؤها 
باستخدام Mercury‏ : 


.PDF / HTML تم تصديره بتنسيق‎ ٠ 
تم عرضه كعرض تقديمي مباشر.‎ ۵ 
مؤمن بالمصادقة لتقييد الوصول.‎ ٠ه‎ 


المقالة: 
جه-غطع 11 - وم مد -داع :15 -غ طدعع اع -110ناحا/م /حطامء .كا 5ط تاد .712تكقطع كه // :ومغط 
الكود: 
https://github.com/ChawlaAvi/Mercury- Web-App‏ 
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501: كن عالم بيانات ثنائي اللغة مع هذه الباندا لترجمات‎ )1 
Become A Bilingual Data Scientist With These Pandas 
to SQL Translations 


LOAD DATA INFILE 'data.csv' 
INTO TABLE table 

pd.read_csv(file) FIELDS TERMINATED BY ',' 

LINES TERMINATED BY ‘\n' 
I6NORE 1 ROWS: 

Print first 10 SELECT * FROM table 

EES‏ سسست 

| سم‎ | E DESCRIBE table; 


SELECT * FROM table 
SEET مامه‎ FRO tele 


UPDATE table 


ET column=O0 


df .column.fillna(0) 5 
WHERE column IS NULL: 


“م22 | 7 | 


pd.merge(df1, df2, on ="col", SELECT * FROM table1 


> 0 0 : | 
* 

6 df "1نامع ")لإطامناهو.‎ . SELECT لصوت‎ vt 1 (امع_ووه.‎ 
agg_col.me GROUP BY column: 

١ df .column. unique) DAE AY column‏ سام مضي 
ALTER TABLE table‏ 5 
e gran RENAME COLUMN‏ 
old_name TO new_name:‏ - 4 3 

| Delete coum | df .drop(columns = ["column"]) ا موا‎ 00 le 


يعد كل من 5Q1‏ و 232025 أدوات قوية لعلماء البيانات للعمل مع البيانات. 


يمكن استخدام 5Q1‏ و دل مه٥‏ معًا لتنظيف مجموعات البيانات الكبيرة وتحويلها وتحليلهاء وإنشاء 
خطوط أنابيب ونماذج معقدة. 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


وبالتالى» فإن الكفاءةفي كلا الإطارين يمكن أن تكون ذات قيمة كبيرة لعلماء البيانات. 
يصور هذا الشكل بعض العمليات الشائعةفي 12212025 والترجمات المقابلة لهاني 501. 
لدي مدونة مفصلة عن ترجمة 222025 إلى 5001 مع العديد من الأمثلة. اقرأها هنا: 501 0غ 7292025 


.blog 
دورك الآن: ما هي ترجمات 242025 إلى 501 الأخرى التي ستدرجها هنا؟‎ 


المقالة: 
https://avichawla.substack.com/p/become-a-bilingual-data-scientist‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Pandas-to-SQL.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


12) ميزة أقل شهرة من منعدء511 لتدريب النماذج على 
مجموعات البيانات الكبيرة A Lesser-Known Feature of‏ 
Sklearn To Train Models on Large Datasets‏ 


om sklearn. linear_model 
import SGDCLassifier 


©1868 = SGDELaSSIL1er(...) 


)¥ ا ك لاسي يناك 


# 1. Load data in chunks (say, 06 


data = pd.read_csv("data.csv", chunksize = 1000) 
+ 2. Train from mini-batche 
for batch in data: 
E 81 100 IK(batch["X"], 
batch["y"l, 
classes = [O, 


من الصعب تدريب النماذج باستخدام 5151625 عندما يكون لديك الكثير من البيانات. قد يؤدي هذا غالبًا 
إلى حدوث أخطاءفي الذاكرة حيث يتم تحميل البيانات بالكاملفي الذاكرة. ولكن إليك ما يمكن أن يساعد. 
تطبق 5116252 واجهة برمجة التطبيقات (821) للعديد من الخوارزميات» والتي توفر التعلم الإضافي 
.incremental learning‏ 


كما يوحي الاسم يمكن للنموذج التعلم بشكل تدريجي من مجموعة مصغرة من الأمثلة. هذا يمنع قيود 
الذاكرة المحدودة حيث يتم تحميل حالات قليلة فقطفي الذاكرة مرة واحدة. 
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Cainin‏ ام 
ا و ۱ ]=| و— Whole data‏ 
4 نه Load‏ 
train on‏ 
entire data‏ 


م يي ههه 


ا 3 8 


aN Successful 
train chunk-wise 


Chunked data 


كما هو موضحفي الصورة الرئيسية . يأخذ () ٤1_۴1ه1٤ءهم.‏ 1۴ء البيانات بالكاملء وبالتالي» قد 
يؤدي إلى حدوث أخطاءفي الذاكرة. ولكن» تحميل أجزاء من البيانات واستدعاء طريقة 
() غ+121_#51غع<دم. 012 يمنع ذلك ويوفر تدريبًا سلسًا. 

تذكر أيض أنه أثناء استخدام 821 غ41 216121م: قد لا تحتوي الدفعة الصغيرة على مثيلات لجميع 
الفثات (خاصة الدفعة الصغيرة الأولى). وبالتالي» لن يتمكن النموذج من التعامل مع الفئات الجديدة | 
غير المرئيةفي الدفعات الصغيرة اللاحقة. لذلك» يجب عليك تمرير قائمة بجميع الفئات الممكنةفي معلمة 
الفتات. 


بعد قولي هذاء تجدر الإشارة أيضًا إلى أنه ليس كل مقدر ۸إهeاء‏ يطبق 821 غ11 21121م. ها هي 


e Classification 


0 


sklearn.naive_bayes.MultinomialNB 


6 


sklearn.naive_bayes.BernoulliNB 


Oo 


sklearn.linear_model.Perceptron 


o 


sklearn.linear_model.SGDClassifier 


6 


sklearn.linear_model.PassiveAggressiveClassifier 


٠١ Regression 
o sklearn.linear_model.SGDRegressor 


o sklearn.linear_model.PassiveAggressiveRegressor 


٠ Clustering 


o sklearn.cluster.MiniBatchKMeans 


٠ Decomposition / feature Extraction 
o sklearn.decomposition.MiniBatchDictionaryLearning 


o sklearn.cluster.MiniBatchKMeans 


ومع ذلك. فمن المؤكد أن الأمر يستحق الاستكشاف لمعرفة ما إذاكان يمكنك الاستفادة منه . 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/a-lesser-known-feature-of-sklearn‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Sklearn/Sklearn-on-Large-Datasets.ipynb 
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3) سطر واحد بسيط لإنشاء مخططات ط135)غه10م8542 ذات 
المظهر الاحترافي A Simple One-Liner to Create‏ 
Professional Looking Matplotlib Plots‏ 


:, avichawla.substack.com 


Default 
Matplotlib plot 


six)‏ سم 
sin(2x)‏ سد 
)ماه سم 


Styled with 

LovelyPlots ها‎ sin(x) 
جه‎ si N)2×( 
جه‎ sin(3x) 


يبدو التصميم الافتراضي لمخططات ]1ذآ10م]722 بسيطا جدافي بعض الأحيان. إليك كيف يمكنك جعلها 


جذابة. 
لإنشاء مخططات ذات مظهر احترافى للعروض التقديمية أو التقارير أو الأوراق العلمية. جرب 
.LovelyPlots‏ 
يوفر العديد من أوراق الأنماط لتحسين مظهرها الافتراضي» ببساطة عن طريق إضافة سطر واحد فقط من 
التعليمات البرمجية. 
لتثبيت 1071972105 قم بتشغيل الأمر التالي: 

pip install <5 


بعد ذلك قم باستيراد مكتبة انلاه[ما وقم بتغيير النمط على النحو التالي: (ليس عليك استيراد 
9و اض أي مكان) 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


import matplotlib.pyplot as plt 


plt.style.use (style) ## change to the style provided by 
LovelyPlots 


اطبع قائمة بجميع الأنماط الممكنة على النحو التالي: 
plt.style.available‏ 


البدء: مستودع 5غ10776177110. 


المقالة: 
https://avichawla.substack.com/p/visualise-the-change-in-rank-over‏ 
الكود: 


https://avichawla.substack.com/p/visualise-the-change-in-rank-over 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


85010 تجنب هذا الخطأالمكلف عند فهرسة إطار البيانات‎ )14 
This Costly Mistake When Indexing A DataFrame 

عند فهرسة إطار بيانات» يعد اختيار ما إذا كنت تريد تحديد عمود أول أو شريحة صف أول أمرًا مهما جد 
من منظور وقت التنفيذ. 


df.shape Xe avichawla.substack.com 


(32768000, 9) 


First column then row 


S$timelt df" eol” 1] [ "EOW" ] 
2.96 us + 7.17 ns per loop 


Selecting a 


First row then column column first 


is over 
stimeit df.loc["row"]["col"] 15x faster 


45.4 us ± 384 ns per loop 


كما هو موضح أعلاه. فإن تحديد العمود الأول أسرع ب 15 مرة من تقطيع 1زا الصف الأول. لماذا؟ 


كما تحدثت من قبل» فإن (312۴۲٩٣8‏ 222025 هو هيكل بيانات عمود رئيسي. وبالتالي» يتم تخزين 
العناصر المتتاليةفي عمود بجانب بعضها البعض في الذاكرة. 


col4 
8 
- 


cola E‏ اأ 
كم 2 ES‏ 7" 1 


o 


يفا 


Whole column is 
stored in contiguous 
blocks oF memory 


نظرًا لآن المعالجات فعالة مع كتل الذاكرة المتجاورةء فإن الوصول إلى عمود يكون أسرع بكثير من 
الوصول إلى صف (اقرأ المزيد عن هذافي إحدى مشاركاتي السابقة هنا). 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


ولكن عندما تقوم بتقسيم صف أولاء يتم استرداد كل صف من خلال الوصول إلى كتل غير متجاورة من 
الذاكرة» مما يجعله بطيًا. 


54 


68 


اا بمجرد تجميع جميع عناصر الصف. يحولها 131025 إلى سلسلة. وهي عبارة عن 057611620 
آخر. 


coli cola E col4 1 


Creates a 
Pandas Series 


يمكننا التحقق من هذا التحويل أدناه: 


07 O AI 
A 1 


8 2 Series object 
Name: ©, dtype: int64 


type(df.loc[0]) 
pandas.core.series.Series 


بدلاً من ذلك عندما تحدد عمودًا أولاء يتم استرداد العناصر عن طريق الوصول إلى كتل متجاورة من 
الذاكرة. وهذا أسرع بكثير. أيضاء العمود هو بطبيعته سلسلة 32025. وبالتالي» لا توجد نفقات تحويل 
متضمنة كما هو مذكور أعلاه. 


Series object 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


- 0] ده‎ 
6 1 
1 3 
Name: A, dtype: int64 


type (dE ALI) 
pandas.core.series.Series 


بشكل عام» من خلال الوصول إلى العمود الأول؛ نتجنب الوصول إلى ذاكرة الوصول غير المتجاورة وهو 


ما يحدث عندما نصل إلى الصف الأول. 


هذا يجعل تحديد العمود أولاً أسرع من تقسيم الصف الأولفي عمليات الفهرسة. 


إذا كنت محتارًا بشأن معنى التحديد ع128اءع1ء5 والفهرسة indexing‏ والتقطيع slicing‏ والترشيح 


ع 1 فإليك ما يجب أن تقرأه بعد ذلك: 


.https://avichawla.substack.com/p/are-you-sure-you-are-using-the-correct 


المقالة: 


https://avichawla.substack.com/p/avoid-this-costly-mistake-when-indexing 


الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Pandas-Correct-Indexing-Order.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


5 9 إشارات سطر أوامر لتشغيل سكريبتات بايثون بشكل 
أكثر مرونة 9 Command Line Flags To Run Python‏ 
Scripts More Flexibly‏ 


Python Command Line Flags 


Run interactive Python 
python -i shell after running a python -i script.py 
script 


3 Ignore assert 9 
Ignore assert 3 
python -OO statements and python -00 seript.py 
docstrings 


Run a module as a ERA FE -m 
my_package.ı ا‎ module 


Enable verbose mode. 
python -v inf gir haf python -v script.py 


interpreter is doing 


Ignore the first line of 
python -x | the script (often the 
shebang line) 


: avichawla.substack.com 


عند استدعاء سكريبت بايثون» يمكنك تحديد 08810075/11385 المختلفة. يتم استخدامها لتعديل سلوك 
مترجم بايثون عندما يقوم بتشغيل سكريبت أو وحدة نمطية. 


فيما يلي 9 من أكثر الخيارات شيوعًا: 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


©- 0۳ طtرم:‏ قم بتشغيل أمر بايثون واحد. مفيد لتشغيل سطر واحد بسيط أو اختبار مقتطفات 
التعليمات البرمجية. 

ذ- 012]لزم: قم بتشغيل السكريبت كالمعتاد وادخل إلى الوضع التفاعلي بدلاً من إنهاء 
البرنامج. مفيد لتصحيح الأخطاء حيث يمكنك التفاعل مع الكائنات التي تم إنشاؤها أثناء 
البرنامج. 

0- 02طغنقم: تجاهل عبارات التأكيد (هذه هي الأبجدية "0"). مفيد لتحسين التعليمات 
البرمجية عن طريق إزالة كود التصحيح. 

0- ۲٥طtرم:‏ تجاهل عبارات التأكيد وتجاهل سلاسل المستندات. مفيد لمزيد من 
تحسين الكود عن طريق إزالة سلاسل التوثيق. 

- 2هطغتزم: تجاهل كافة التحذيرات. يفيدفي تحويل التحذيرات مؤقنًا والتركيز على 
التطوير. 

- 7611012[م: قم بتشغيل وحدة نمطية كسكريبت. 

7- 237612013: ادخل إلى الوضع المطول عملم عء0طإء«. مفيد لطباعة معلومات إضافية 
أثناء تنفيذ البرنامج. 

×- «0طtغرم:‏ تخطى السطر الأول. مفيد لإزالة خطوط ع56663 أو التعليقات الأخرىني 
بداية السكريبت. ٠‏ 

0n -£‏ thرم:‏ تجاهل جميع متغيرات بيئة بايثون. مفيد لضمان سلوك برنامج متسق من 
خلال تجاهل متغيرات البيئة التي قد تؤثر على تنفيذ البرنامج. 


أي منها فاتني؟ اسمحوا لي أن أعرف. 


المقالة: 


https://avichawla.substack.com/p/9-command-line-flags-to-run-python 


الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Python- Flags.ipynb 
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KMeans تنفس 5ضدء152: أفضل وأسرع بديل ل‎ )6 
Breathing KMeans: A Better and Faster Alternative to 
KMeans 


KMeans++ سيل‎ :., avichawla.substack.com 


KMeans Avg 
Convergence 


Breathing KMeans 


Breathing Kmeans 8# 5 


Avg. Convergence 
Time: 


أداء 7535 يعتمد كليا على خطوة تهيئة النقطه الوسطى 1016121123001 26010ع0. وبالتالي» من 
المحتمل جد الحصول TT‏ غير دقيقة. 


على الرغم من أن ++ Kmeans‏ يقدم تهيئة النقطه الوسطىء فإنه لا يضمن دائمًا تقاريًا عع عع15761م» 
دقيقا (اقرأكيف يعمل 171625 ++في مشاركتي السابقة). هذا صحيح بشكل خاص عندما يكون عدد 
الكتل 01115615 مرتفعًا. هناء قد يساعد تكرار الخوارزمية. لكنه يقدم 076111620 غير ضروريةفي وقت 
التنفيذ. 


بدلاً من ذلك,. يعد Breathing KMeans‏ بديلاً أفضل هنا. وإليك كيف يعمل: 


**» الخطوة 1: تهيئة النقاط الوسطى 1 وتشغيل 11/162315 دون تكرار. بعبارة أخرى, لا تعيد تشغيله 
بتهيئة مختلفة. فقط قم بتشغيله مرة واحدة. 

**» الخطوة 2: م56 صذ مطtوعإB:‏ أضف نقطة وسطى جديدة " جديدة وقم بتشغيل كصدء]/ل1 
مع النقاط الوسطى (:+1)دون تكرار. 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 
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# الخطوة 3: مع:ة :Breathe out‏ إزالة النقط الوسطى 2 من النقاط الوسطى (0:+1) الموجودة. 
قم بتشغيل 151/2125 مع النقط الوسطى ع1 المتبقية دون تكرار. 
**» الخطوة 4: إنقاص 2 بمقدار 1. 
# الخطوة 5: كرر الخطوات من 2 إلى 4 حتى 2-0:. 
يدخل هذ #طغهع8ني خطوة النقط الوسطى الجديدة بالقرب من النقط الوسطى مع أكبر الأخطاء. خطأ 
النقطه الوسطى هو مجموع المسافة التربيعية للنقاط تحت تلك النقطه الوسطى. 
خطوة غ011 عطغدء*2 تزيل النقطتين الوسطى مع فائدة منخفضة 1161167 107. فائدة النقطة الوسطى 
تتناسب مع بعده عن النقطة الوسطى الأخرى. الحدس هو أنه إذاكانت النقطتين الوسطى قريبة جدأء فمن 


المحتمل أن تقعفي نفس المجموعة. وبالتالي» سيتم تعيين قيمة فائدة منخفضة لكليهماء »كما هو موضح 
أدثاة. 


Low utility centroids 


Utility 


4-1 |212.0| 
¥ 


(a) Two neighboring centroids (b) Removing one of them makes 
with low utility values (red). the other one very useful (red). 


مع دورات التنفس المتكررة هذه يوفر التنفس KMeans‏ حلا أسرع وأفضل من 15/1625.في كل دورة» 
تتم إضافة النقط الوسطى الجديدةفي مواقع "جيدة" وتتم إزالة النقط الوسطى مع فائدة منخفضة. 


في الصورة أدناهء نتج 5ه/162 ++ نقطتينفي غير محلهما. 


KMeans++ س‎ 


¥ gia. KMeans Avg 


Convergence 


e 5 Time 
و‎ 4 


ةك 


4 Breathing KMeans 


Breathing Kmeans 
Avg. Convergence 


8 


Time 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


ومع ذلك. فقد جمعت تقنية Breathing KMeans‏ البيانات بدقة. مع تحسن بنسبة 50/في وقت 
التشغيل. 
يمكنك استخدام كط Breathing‏ عن طريق تثبيت مكتبة مفتوحة المصدرء 2262325[ على 
النحو التالى: 

pip install © 5 


بعد ذلك قم باستيراد المكتبة وتشغيل خوارزمية التجميع: 


في الواقع. ترث فئة BN»‏ من فئة ود٥ KN‏ من 12د511. لذلك يمكنك تحديد معلمات أخرى 
واستخدام أي من الطرق الأخرى على كائن 1815/1685 حسب الحاجة. 


المقالة: 
https://avichawla.substack.com/p/breathing-kmeans-a-better-and-faster‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/Breathing-KMeans.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


7 كم عدد الأبعاد التي يجب عليك تقليل بياناتك إليها عند 
استخدام PCA؟ How Many Dimensions Should You‏ 
?Reduce Your Data T'o When Using PCA‏ 


عند استخدام 4رن)2؛ قد يكون من الصعب تحديد عدد المكونات 001280116165 التي يجب الاحتفاظ 
بها. ومع ذلك إليك رسم ٤٥1م‏ يمكن أن تساعد بشكل كبير. 


avichawla.substack.com‏ أن 
0 


Cumulative Explained Variance Plot 
for PCA 


go 97% 9896 99% 100% 


Cumulative Variance‏ هل 
wm Individual Component Variance‏ 


laa. 
2 9 4د‎ BS © FTF ® 8 


Principal Component Number 


ملاحظة: إذا كنت لا تعرف كيفية عمل ۳۸ . فلا تترددفي قراءة المنشور المفصل الخاص بي: دليل مرئي 
POA‏ 


Explained Variance 


10 


مع ذلك. إليك تحديث سريع خطوة بخطوة. لا تترددفي تخطي هذا الجزء إذا كنت تتذكر منشور 170 
الخاص بى. 


: avichawla.substack.com 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


الخطوة 1. خذ مجموعة بيانات عالية الأبعاد ( (لا ,×) في الصورة أعلاه) وقم بتمثيلها بمحاور غير مرتبطة 
( ('لا ,)ني الشكل أعلاه). لماذا غير مرتبط 11260113660؟ 


هذا للتأكد من أن البيانات ليس لها ارتباط صفري correlation‏ م20ء2 على طول أبعادها وأن كل بعد 
جديد يمثل تباينه الفردي. 


على سبيل المثال» نظرًا لارتباط البيانات الممثلة على طول (ل ,×) » فإن التباين على طول × يتأثر بانتشار 
البيانات على طول لا. 


بدلاً من ذلك» إذا قمنا بتمثيل البيانات على طول ("لا ,'×)ء فإن التباين على طول "× لا يتأثر بانتشار 
البيانات على طول لا. 

يتم تحديد الفضاء أعلاه باستخدام المتجهات الذاتية 6015]ع61861576. 

الخطوة 2. أوجد التباين على طول جميع المحاور غير المرتبطة ('لا ,'). تشير القيمة الذاتية 
eigenvalue‏ المقابلة لكل إهاء ۸۷ع عةء إلى التباين. 


الخطوة 3. تجاهل المحاور ذات التباين المنخفض. كم عدد الأبعاد التي يجب تجاهلها (أو الاحتفاظ 
بها) هي معلمة فائقة «hyperparameter‏ والتي سئناقشها أدناه. اعرض البيانات على طول المحاور 
المحتجزة .retained axes‏ 


عند تقليل الأبعاد. يكون الغرض هو الاحتفاظ بما يكفي من التباينفي البيانات الأصلية. 


نظرًا لأن كل مكون رئيسي 002325012616 13201531م يشرح قدرًا من التباين» فإن التخطيط التراكمي 
للتباين من حيث المكونات يمكن أن يساعدفي تحديد المكونات التي لها أكبر قدر من التباين. 


وهذا ما يسمى مخطط التباين الموضح التراكمي .cumulative explained variance‏ 
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Cumulative Explained Variance Plot 
for PCA 


go 97% 8% 99% 100% 
3 


Cumulative Variance‏ -ه 
wm Individual Component Variance‏ 
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Principal Component Number 


Explained Variance 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


على سبيل المثال» لنفترض أننا نعتزم الاحتفاظ بحوالي 85/ من تباين البيانات. يصور المخطط أعلاه 
بوضوح أن اختزال البيانات إلى أربع مكونات سيؤدي إلى ذلك. 


أيضاء كما هو متوقع» تمثل المكونات العشرة مما تباينا بنسبة 100/في البيانات. 


إنشاء هذا المخطط أمر بسيط للغايةفي بايثون. ابحث عن الكود هنا: 2101 01857-.208. 


المقالة: 
https://avichawla.substack.com/p/how-many-dimensions-should-you-reduce‏ 
الكود: 


https: //github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/PCA-Dimensions- 
Hyperparameter.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


8) تم تعزيز ميتو للتو مع الذكاء الاصطناعي! Mito Just‏ 
Got Supercharged With AI!‏ 


:, avichawla.substack.com 


يا m‏ كف Code‏ « © © صخ 4 + 68 ها + © ه 


In (11: import nitosheet 
nitosheet.sheet (analysis_to_replay="id-atbdzhahvd" ) 


11117.19 | Full Time 
3698.55 | ern 
192.68 | Full Time 
10710.60 | Fu Time 
371578 | men 
1250538 | Full Time 
7953.93 | ern 
10558.20 | Ful Time 
Baker, Allon and Ewt Kristaburgh 9980.62 | Ful Time 
امم ولعي‎ Kristaburgh 9797.61 | erm 
Beker, Allen and Edw| North Mellssafurt 4574.28 | Ful Time 
Thomas-spencer | New Cinéycheslef 092.12 | Fl Time 
Baker Allen and Edw; New Cinêychester 10631.22 | Ful Time 


أنا شخصياً من أشد المعجبين بأدوات تحليل البيانات بدون كود. إنها مفيدة للغايةفي التخلص من 
التعليمات البرمجية المتكررة عبر المشاريع ‏ وبالتالي زيادة الإنتاجية ,20011©065716م. 

ومع ذلك غالا ما تكون معظم أدوات عدم وجود تعليمات برمجية محدودة من حيث الوظائف التي 
تدعمها. وبالتالى» فإن المرونة عادة ما تمثل تحديًا كبيرًا أثناء استخدامها. 

Mit‏ هى أداة مفتوحة المصدر مذهلة تسمح لك بتحليل بياناتك داخل واجهة جدول بياناتفي ۲ع رما[ 
دون كتابة أي كود. 

علاوة على ذلك. قامت 1/360 مؤخرًا بشحن واجهة جداول البيانات الخاصة بها باستخدام الذكاء 
الاصطناعي. نتيجة لذلك. يمكنك الآن تحليل البيانات الموجودةفي نوتبوك باستخدام اوامر نصية 867 
.prompts‏ 

أحد أروع الأشياء حول استخدام 1/3160 هو أن كل تعديلني جدول البيانات يولد تلقائيًا كود بايثون 
المكافئ. هذا يجعل من الملائم إعادة إنتاج التحليل لاحقا. 


Automatic code generation 


from mitosheet.public.v3 import *; register_analysis("id-utbdzhmhvd" ); 
import pandas as pd 


# Imported employee_dataset.csv 


employee_dataset = pd.read_csv(r'employee_dataset.csv') 


# group on city and find avg salary and ratin 
df2 = employee_dataset.groupby( 'City' ).agg({' Salary': 'mean', 'Rating': 'mean'}) 


# top 5 employees with highest salary 
top_employees * employee_dataset.nlargest(5, 'Salary') 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


يمكنك تثبيت 2/160 باستخدام ط۳ كما يلي: 
python -m pip install mitosheet‏ 
بعد ذلك» لتنشيطدفي عا مدا[ قم بتشغيل الأمرين التاليين: 
python -m jupyter nbextension install --py --user‏ 


mitosheetpython -m jupyter nbextension enable -- 
py --user mitosheet 


المقالة: 
https://avichawla.substack.com/p/mito-just-got-supercharged-with-ai‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Coo0l%20Tools/Text-to-Code-Jupyter.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 59 


9) كن حذرا قبل رسم أى استنتاجات باستخدام الإحصائيات 
الموجزة Be Cautious Before Drawing Any Conclusions‏ 
Using Summary Statistics‏ 


: avichawla.substack.com 


Concentric Circles 
10 


4< ا أن 


. 


Datasets with ZERO correlation 


أثناء تحليل البيانات» قد يميل المرء إلى استخلاص استنتاجات بناءً على إحصائياته فقط. ومع ذلك قد 
تنقل البيانات الفعلية قصة مختلفة تمامًا. 


إليك صورة مرئية تصور تسع مجموعات بيانات تقريبًا. ارتباط صفري 601612601 2650 بين 


المتغيرين. لكن إحصاء الملخص (ارتباط بيرسون 2017:1210 ١0ءإةء‏ في هذه الحالة) لا يعطي فكرة 
عما يوجد داخل البيانات. 

علاوة على ذلك» يمكن أن تكون إحصاءات البيانات مدفوعة بشدة بالقيم المتطرفة 1©5|؛نا0. لقد غطيت 
هذاق شور سابق هق 

وبالتاليء لا يمكن التأكيد على أهمية النظر إلى البيانات بما فيه الكفاية. إنه يحميك من استخلاص 
استنتاجات خاطتة» والتى كان من الممكن أن تتوصل إليها بخلاف ذلك بالنظر إلى الإحصائيات وحدها. 


ES‏ علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


على سبيل المثالءفي مجموعة البيانات الجيبية ا#ءهادل 515211501021 أعلاه. قد يجعلك ارتباط بيرسون 
تعتقد أنه لا يوجد ارتباط بين المتغيرين. ومع ذلك تذكر أنه يحدد فقط مدى العلاقة الخطية بينهما. اقرأ 
المزيد حول هذافي واحدة أخرى من مشاركاتي السابقة هنا. 

وبالتالى» إذا كان هناك أي علاقة غير خطية أخرى (تربيعية 2011201361 جيبية 115010طزو» أسية 
exponent 1‏ إلخ)؛ فسوف تفشلفي قياس ذلك. 


المقالة: 


https://avichawla.substack.com/p/be-cautious-before-drawing-any- 


conclusions 


الكود: 
https://github.com/ChawlaAvi/Daily-Dose-of-Data‏ 


Science/blob/main/Statistics/Zero-Correlation-Datasets.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 61 


0 استخدم كائنات بايثون المخصصة في سياق منطقي ءا 
Custom Python Objects In A Boolean Context‏ 


8 avichawla.substack.com 


without_bool.py with_bool.py 


:56170 1516-7 ا وس 
self.items []‏ ][ 25 . 56146 


(self): 
en(self.items) >0 
my_cart Cart () my_cart Cart () 


my_cart: my_cart : 
print ("Cart Not Empty") print ("Cart Not Empty") 


print ("Cart Empty") print ("Cart Empty") 


"Cart Not Empty" "Cart Empty" 


Object of Object‏ م 
custom class evaluated‏ 


evaluated to to False 
True by default 


في السياق المنطقي +0016 ههه تقيم بايثون دائمًا كائنات فئة كاءعزاه مخصصة إلى 1506'. 
لكن هذا قد لا يكون مرغوبًاني جميع الحالات. إليك كيفية تجاوز هذا السلوك. 

تستخدم طريقة __8001__ لتحديد سلوك كائن عند استخدامهني سياق منطقي. نتيجة لذلك يمكنك 
تحديد شروط واضحة لتحديد مصداقية الكائن. 

يتيح لك هذا استخدام كائنات الفئة بطريقة أكثر مرونة وبديهية. 

كما هو موضح اعلا بدون طريقة 001 «(without_bool.py)‏ يتم تقييم الكائن اف .True‏ 
لكن تنفيذ طريقة __8001__ يتيح لنا تجاوز هذا السلوك الافتراضي (لام.8_5001]آللا). 

بعض التفاصيل المفيدة الإضافية 


عندما نستخدم أي كائن (سواء تم إنشاء مثيل له من فئة مخصصة 01560111 أو مدمجة 116ناط-1)في سياق 
منطقىء فإليك ما تفعله بايثون: 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


Object in 
boolean cortexet 


١ 


does its class 
implement the 
_bool__ method? 


Invoke the 
__bool__ method 


does its class 
implement the 
__len_ method? 


YES NO 


Invoke thı 
ف ا‎ return TRUE 


اول تتحقق بايثون من طريقة 001ط_في تطبيق فتتها. إذا وجدت» يتم استدعاؤه. إذا لم يكن الأمر 
كذلك» فستتحقق بايثون من طريقة __1©12__. ان وجد تم استدعاء __1©12__. وإلاء فإن بايثون ترجع 


. True 


يوضح هذا السلوك الافتراضي للكائنات التي تم إنشاء مثيل لها من فئة مخصصة. نظرًا لأن فئة ٥3۲٤‏ لم 
تنفذ الطريقة 8001 ولا الطريقة . فقد تم تقييم کائن غ03 إلى 536]. 


المقالة: 
https://avichawla.substack.com/p/use-custom-python-objects-in-a-boolean‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Class-Object-Boolean-Context.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 63 


1) دليل مرئي لتقنيات أخذ العينات في التعلم الآلي 7715121 ۸ 
Guide T'o Sampling Techniques in Machine Learning‏ 


: avichawla.substack.com 


Simple Random Sampling Cluster Sampling (Single Stage) 


أ©© © © [6 9699© 
©6666 
| © © © © © ) 
[© ©6666 


Cluster Sampling (Two Stage) 
ب ماح حا ي‎ 
|) © © © © © [ © © © © © 
© © © © © [ 
© © © © © ( 
[© © © © © [ © © © © © © 5 © © 
1. Select clusters 2. Select data points 


فة 3 


Stratified Sampling 


[ © © © © © )| ©6©66و) 


© ©©© ©  . ]) © © © © © ( ©:© 
۴ 5 کو‎ —mm 
oeo0000 3 XIII] © © 
00000 [8 © © © © [ © © 
1. Create stratas 2. Draw samples from each strata / 


عندما تتعامل مع كميات كبيرة من البيانات» يُفضل غالبا سحب عينة أصغر نسبيًا وتدريب نموذج. لكن 
أي أخطاء يمكن أن تؤثر سلا على دقة نموذجك. 


Bal/ ن‎ 
sample 
موه تا‎ - 
e Good 2 


هذا يجعل أخذ العينات جانبًا حاسمّافي تدريب نماذج التعلم الآلي. 


فيما يلي بعض التقنيات الشائعة الاستخدام التي يجب على المرء أن يعرفها: 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


٠‏ أخذ العينات العشوائية البسيطة عدنامصةء ددملصةء ع1مصذة: لكل نقطة بيانات 
احتمال متساو لاختيارهافي العينة. 


Simple Random Sampling 


٠‏ أخذالعينات العنقودية (مرحلة واحدة) :Cluster sampling (single-stage)‏ قسّم 
البيانات إلى مجموعات (عناقيد 15ع11156ع) وحدد بضع مجموعات كاملة. 


Cluster Sampling (Single Stage) 


٠‏ أخذ العينات العنقودية (مرحلتان] (ء6550-5:28) عصنامصهء إusteاC:‏ قسْم البيانات 
إلى مجموعات؛ وحدد بضع مجموعات» واختر نقاطًا منها بشكل عشوائي. 


Cluster Sampling (Two Stage) 


)] 213213 ©0006 60000 
)©© © © © [ 


عطس م 

© © © © © | 

] ©© © © © [ ©:© © © © © © © 
| 1. Select clusters 2. Select data points 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


٠‏ أخذ العينات الطبقية عمنامصهء 5:26660: قم نقاط البيانات إلى مجموعات متجانسة 
95 2011086120115 (بناءً على العمر والجنس وما إلى ذلك). وحدد النقاط بشكل 


Stratified Sampling 


)©© © © ]© © © © © | 
| 8866 ] © © © © © ( 


صصسبيبي ےےے کم 

© © © © © (e © © © © [ © © 

| ©© © © © ]© © © © © ©6©--© 
3 1. Create stratas 2. Draw samples from each strata 


ما هي بعض تقنيات أخذ العينات الأخرى التي تلجأ إليها عادة؟ 


المقالة: 
https://avichawla.substack.com/p/a-visual-guide-to-sampling-techniques‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/Sampling-Techniques.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات ا 


2) ربما تم إعطاؤك معلومات غير كاملة حول ثبات الصف 
You Were Probably Given Incomplete Info About A‏ 
T'uple's Immutability‏ 


my_tuplLe 


my_tuplLe 
]2, 5(( 


my_tuple[1].append(4) 


Tuple 


46 الات‎ 
3 Ea Modified 
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عندما نقول إن الصف ع1م1] غير قابلة للتغيير 1111121162116 يعتقد العديد من مبرمجي بايثون أن القيم 
الموجودة داخل مامد لا يمكن أن تتغير. ولكن هذا ليس صحيحا. 


يقتصر ثبات الصف ع1مد0 042 رانازاة) ص1 فقط على هوية الأشياء التي تمتلكهاء وليس قيمتها. 


بعبارة أخرى. لنفترض أن المجموعة تحتوي على كائنين لهما المعرّفان 1 و 2. يقول الثبات 
ityاi [muta‏ إن مجموعة المعرفات المشار إليها بواسطة المجموعة (وترتيبها) لا يمكن أن تتغير أبداً. 


ومع ذلك لا توجد قيود بحيث لا يمكن تعديل الكائنات الفردية ذات المعرفات 1 و2. 
وبالتالى: إذا كانت العناصر الموجودة داخل المجموعة كاتنات قابلة للتغيير» فيمكنك بالفعل تعديلها. 


هذا يفسر الشرح أعلاه. نظرًا لأن الإلحاق 600مم2 عملية داخلية» فإن مجموعة المعرفات لم تتغير. 
وهكذاء فإن بايثون لم ترفع أي خطأ. 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


يمكننا أيضًا التحقق من ذلك عن طريق طباعة مجموعة معرفات الكائنات المشار إليها داخل المجموعة 
قبل وبعد عملية الإلحاق: 


my_tuplLe (TL, ]2. 31) 


id(my_tuple[0]), id(my_tuple[11]) 


583145, 434810( 


, 


my_tuple[1].append(4) 


id(my_tuple[0]), id(my_tuple[1]) 
(583145, 434810) 


3 „ avichawla.substack.com 


كما هو موضح أعلاه فإن المعرفات السابقة واللاحقة للإلحاق هي نفسها. وبالتالي لا يتم انتهاك الثبات. 


المقالة: 
https://avichawla.substack.com/p/you-were-probably-given-incomplete‏ 
الكود: 


https://avichawla.substack.com/p/you-were-probably-given-incomplete 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 68 


3) خدعة بسيطة تعمل على تحسين جودة مخططات 


ibاotاMatp‏ بشكل كبير 


'T'rick ‘That 


A Simple 


Significantly Improves The Quality of Matplotlib Plots 


Blurry Plot 


د 


from matplotlib_inline.backend_ inline import set_matplotlib_formats 
set_matplotlib_formats ) 'svg') 


# create a plot 


e Change format 


Benford's Law - First Digit Distribution 


1 2 3 4 5 6 7 


8 9 


2 .show() 


30% 


25% 


م 
e‏ 
3 


Frequency 


First Digit 


# Create a plot 


plt.show() 


Benford's Law - First Digit Distribution 


03 
10% 
. TT 
O ITE GEE E E 


First Digit 


Superior 
Quality 
Plot 


غالبا ما تظهر مخططات طنااه1م٤ة‏ باهتة لاال وضبابية ر٤ن1ط»‏ خاصة عند القياس أو التكبير. ومع 


ذلك إليك حيلة بسيطة لتحسين جودتها بشكل ملحوظ. 


يتم تقديم مخططات طناا هم13 كصورة بشكل افتراضي. وبالتالي» فإن أي قياس / تكبير یشوه جودتها 


بدلاً من ذلك قم دائمًا بتقديم المخطط كرسم متجه قابل للتطوير )576( .scalable vector graphic‏ 


كما يوحي الاسم» يمكن تحجيمها دون المساس بجودة المخطط. 


كما هو موضحني الصورة أعلاه فإن المخطط التي يتم عرضها على أنها 5۷6 تتفوق بوضوح وتكون 


أكثر وضوحًا بشكل ملحوظ من المخطط الافتراضى. 


an‏ ` علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


يتيح لك الكود التالي تغيير تنسيق العرض إلى 5۷6. إذا لم يكن الاختلاف واضحَافي الصورة أعلاه فإنني 
أوصي بتجربته بنفسك وملاحظة الفرق. 


matplotlib_inline.backend_inline set_matplotlib_formats 
set_matplotlib_formats('svg') 


بدلاً من ذلك يمكنك أيضًا استخدام الكود التالي: 


InlineBackend. fisure_format‏ 5195ممء 


ملاحظة. إذاكانت هناك فرصة لأنك لا تعرف ما الذي يتم تصويرهفي مخطط الشريط أعلاه. فراجع مقطع 
فيديو ¥ou Tube‏ هذا بواسطة .Nunmberphile‏ 


المقالة: 
https://avichawla.substack.com/p/a-simple-trick-that-significantly‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/SVG-Matplotlib-Plots.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات لخ 0ل 


A Visual and Overly PCA دليل مرتي ومبسط للغاية ل‎ (24 
Simplified Guide to PCA 


:,, avichawla.substack.com 
Determine a system of UNCORRELATED 
axes (x`, أل‎ ( to represent the data 


Discard directions of LOW variance (y`) 5 


| FINAL DATA WITH REDUCED DIMENSIONS / 


غالبًا ما يكافح العديد من الأشخاص لفهم الجوهر الأساسي لتحليل المكون الرئيسي 21مأعصتةم 
ر(خن)]) ponent analysis‏ صتc»‏ والذي يستخدم على نطاق واسع لتقليل الأبعاد dimensionality‏ 
.reduction‏ إليك دليل مرني مبسط يصور ما يجري تحت الغطاء. 

في الخلاصةء مع تقليل الأبعاد. يكون الهدف هو الاحتفاظ بأكبر قدر ممكن من التباين 01 t1‏ ٣ه‏ في 
البيانات. 

بادئ ذي بد نظرًا لأن البيانات قد تحتوي على ميزات مرتبطة كعإں هع dعاهاءإإهء»‏ فإن الخطوة 
الأولى هي تحديد نظام إحداثيات جديد بمحاور متعامدة 3:5 01]08021. هذه مساحة حيث جميع 
الأبعاد غير مرتبطة 11116011612660. 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


| Determine a system of UNCORRELATED \ 
axes (x`, 'ل‎ ( to represent the data 


يتم تحديد المساحة أعلاه باستخدام المتجهات الذاتية 61561757606015 للبيانات. 


بعد ذلك» نجد تباين بياناتنا على طول هذه المحاور غير المترابطة. يتم تمثيل التباين من خلال القيم 
الذاتية وع57211معع1ه المقابلة. 


Find the variance of data along << 
all uncorrelated axes 


Direction of 


LOW variance 


Direction of 


HIGH variance‏ ا 


7 


بعد ذلك نقرر عدد الأبعاد التي نريد أن تحتوي عليها بياناتنا 

بعد التخفيض 0056-2010 (معلمة فائقة ع6 دمأ متؤط): قل اثنين. نظرًا لأن هدفنا هو 
الاحتفاظ بأكبر قدر ممكن من التباين» فإننا نختار اثنين من المتجهات الذاتية ذات أعلى قيم ذاتية. 

قد تسأل لماذا أعلى؟ كما ذكر أعلاه. يتم تمثيل التباين على طول المتجه الذاتي من خلال قيمته الذاتية. 
وبالتالي» فإن اختيار أعلى قيمتين من القيم الذاتية يضمن لنا الاحتفاظ بأقصى قدر من التباينفي البيانات 
الإجمالية. 

أخيرًاء يتم تحويل البيانات باستخدام ضرب مصفوفة 116200م 21116 :)2ط بسيط بأعلى متجهين. 
كما هو موضح أدناه: 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


Dimensionally 


بعد تقليل أبعاد مجموعة البيانات ثنائية الأبعاد :02256 20 المستخدمة أعلاه نحصل على ما يلى. 


1 اتات ةةة 
and project the data along‏ 


\ FINAL DATA WITH REDUCED DIMENSIONS 


هذه هي الطريقة التي يعمل بها 014 . آمل ألا تبدو هذه الخوارزمية مرعبة مرة أخرى . 
المقالة: 
https://avichawla.substack.com/p/a-visual-and-overly-simplifiled-guide‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/PCA-Guide.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


73 


5) عزز نواة 7ع9م11[ الخاصة بك مع Supercharge ipyflow‏ 


Your Jupyter Kernel With ipyflow 


هذا اختراق رائع لجوبيتر 1197661[ تعلمته مؤخرًا. 


أثناء استخدام Jupyter‏ يجب أن تكون قد لاحظت أنه عند تحديث متغیر» يجب إعادة تنفيل جميع 


الخلايا التابعة له يدويًا. 


أيضًاءني بعض الأحيان» أليس من الصعب تحديد التسلسل الدقيق لعمليات تنفيذ الخلايا التي أنتجت 


مخرجات؟ 


هذا أمر ممل ويمكن أن يستغرق وقتا طويلاً إذاكان تسلسل الخلايا التابعة طويلاً. 


لحل هذه المشكلة. جرب 15[/51018. إنها نواة جيدة ل ع:”إمنال والتي تتعقب العلاقة بين الخلايا 


ts dependents 


import numpy as np 


Automatic Execution of Dependent Cells 


: $flow mode reactive 


: x = 10 ## Updating x ğutomatically executes i 


: Y = np.sin(x) #%# Dependent on x 


z = np.cos(x) #%# Dependent on x 


: output = y**2 + z**2 ## Dependent on y and 2 


output 


Export Code 


: from ipyflow import code 


print (code (output) ( 


وهكذاءني أي وقت» يمكنك الحصول على الكود المقابل لإعادة بناء أي كود. 


In [1]: 


u 


علاوة على ذلك» يتيح الأمر السحري الخاص به إعادة تنفيذ تلقائي للخلايا التابعة إذا تم تحديث متغير. 


كما هو موضحني العرض التوضيحي أعلاه. يؤدي تحديث المتغير × تلقاتيا إلى تشغيل الخلايا التابعة له. 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


لاحظ أن نواة مختلفة عن النواة الافتراضيةفي 7ع115776[. وبالتالى» بمجرد تثبيت 110158/ق17. حدد النواة 
التالية أثناء تشغيل نوتيوك جديد: 
١ 2‏ - نلاولة Upload ١‏ 


Notebook: 


| Python 3 (ipyflow) 3 


Python 3 (ipykernel) 


Other: 

Text File 

Folder 

Terminal 

ابحث عن مزيد من التفاصيل هنا: 1577110557 
المقالة: 
https: //avichawla.substack.com/p/supercharge-your-jupyter-kernel-with‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Jupyter%20Tips/Supercharge-Jupyter-Kernel.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


6) ميزة أقل شهرة لإنشاء المخططات باستخدام 2109 A۸‏ 


Lesser-known Feature of Creating Plots with Plotly 

يتنوع 21019 كثيرًا عندما يتعلق الأمر بإنشاء أنواع مختلفة من المخططات. بينما يفضله العديد من 
الأشخاص للتفاعل» يمكنك أيضًا استخدامه لإنشاء مخططات متحركة ءاام 2111112660. 

إليكم تصورًا متحرکا animated visualization‏ يوضح الوقت الذي يستغرقه الضوء للوصول إلى 


الكواكب المختلفة بعد مغادرة الشمس. 


a 


Speed of Light Visualization 


0 50 100 150 200 250 
Distance(in Million KMs) 


gv 


١ 1 ١ 1 
9 10 11 12 13 14 


معلمات anim frame‏ و .animation group‏ 
تعتمد الفكرة الأساسية وراء إنشاء مخطط متحرك على رسم البيانات إطارًا واحدافي كل مرة. 


على سبيل المثال» ضعنفي اعتبارك أننا نظمنا البيانات إطارًا تلو الآخرء كما هو موضح أدناه: 


aviehawla.substack.com‏ ا 


Location in each frame‏ د 


ل 
o1‏ 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


الآنء إذا استدعينا طريقة التبعثر 7066100 scatter‏ باستخدام وسيطة «anim frame‏ فسوف ترسم 


plotly.express 


px.scatter(df, 


"planets", 


"frame_id") 


في استدعاء الدالة أعلاه. سيتم رسم البيانات المقابلة ل 0 = 104 ۵ صه۴۲. سيتم استبدال هذا بالبيانات 
مع 1= frame id‏ الإطار التالي» وهكذا. 


المقالة: 
https://avichawla.substack.com/p/a-lesser-known-feature-of-creating‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Animated-Plotting- With-Plotly.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


7”) قيود المسافة الإقليدية التي كثيرا ما يتجاهلها الكثيرون 
The Limitation Of Euclidean Distance Which Many‏ 
Often Ignore‏ 

:4 avichawla.substack.com 


x and y 


are correlated 


Euclidean : Mahalanobis 
Distance 


المسافة الإقليدية 0154266 <نهء811110 هي مقياس مسافة شائع الاستخدام. ومع ذلك فإن قيودها 
غالبا ما تجعلها غير قابلة للتطبيقفي العديد من مواقف البيانات. 

تفترض المسافة الإقليدية محاور مستقلة مجه +112016561061 والبيانات موزعة بشكل كروي إلى حد 
ما. ولكن عندما تكون الأبعاد مترابطة dعاه[ءإإهء.‏ قد ينتج عن الإقليدية نتائج مضللة 3028ل2ء1كندط 


.results 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


تعد مسافة ماهالانوبيس عع طه:5ف0 15ط1/1221320 بديلاً ممتارافي مثل هذه الحالات. إنه مقياس مسافة 
متعدد المتغيرات يأخذفي الاعتبار توزيع البيانات. 

نتيجة لذلك» يمكنه قياس مدى بُعد نقطة البيانات عن التوزيع» وهو الأمر الذي لا تستطيع المسافة 
الاقليدية القيام به. 

كما هو موضحفي الصورة أعلاه؛ يعتبر المسافة الاقليدية أن النقاط الوردية والخضراء متساوية البعد عن 
النقطة المركزية. لكن مسافة ماهالانوبيس تعتبر النقطة الخضراء أقرب» وهذا صحيح بالفعل؛ مع مراعاة 
توزيع البيانات. 

يتم استخدام مسافة ماهالانوبيس بشكل شائعفي مهام الكشف الخارجية. كما هو موضح أدناه.في حين أن 
المسافة الاقليدية تشكل حدودًا دائرية للقيم المتطرفة 5ءعذااناه» فإن ماهالانوبيس» بدلاً من ذلك يأخذ 
في الاعتبار التوزيع س مما ينتج حدا أكثر عملية. 


2 avichawla.substack.com 


Euclidean Mahalanobis 


بشكل أساسي» تسمح مسافة ماهالانوبيس للبيانات ببناء نظام إحداثيات لنفسهاء تكون فيه المحاور مستقلة 
independent‏ ومتعامدة .orthogonal‏ 
من النائحية الحسابيةء تعمل على التحر التالى: 


٠ه‏ الخطوة 1: تحويل الأعمدة إلى متغيرات غير مرتبطة. 
٠ه‏ الخطوة 2: قياس المتغيرات الجديدة لجعل تباينها يساوي 1. 
٠ه‏ الخطوة 3: ابحث عن المسافة الإقليديةفي نظام الإحداثيات الجديد هذاء حيث تحتوي البيانات 


على وحدة تباين. 
لذافي النهايةء نصل إلى الإقليدية. ومع ذلك» لاستخدام الإقليديةء نقوم أولاً بتحويل البيانات للتأكد من 
أنها تمتثل للافتراضات. 


رياضيا يحسب على النحو التالي: 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


D* = *(ر- ه)‎ ۰C". (e - (بر‎ 


ه *#: صفوف مجموعة البيانات الخاصة بك (الشكل: .(n samples * ¬ dimensions‏ 

ه لإ: متوسط الأبعاد الفردية (الشكل: 1 * 5ه 1قطعدصتك ۸). 1 1 

n dimensions * (الشكل:‎ covariance 2٣× معكوس مصفوفة التغاير‎ :) ^ -1 ٠ 
.(n dimensions 


.(n samples * n samples (الشكل:‎ Mahalanobis مربع مسافة‎ :D ^2 


يمكنك العثور على مزيد من المعلومات هنا: مستندات ۷م1ء؟. 


المقالة: 
https://avichawla.substack.com/p/the-limitation-of-euclidean-distance‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/Mahalanobis-Distance.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 80 


Visualizing The Impact of تصور تأثير معلمة التنظيم‎ )8 


Regularization Parameter 


:., avichawla.substack.com 


۸= 0.00 ۸= 0.10 ۸= 1.00 ۸= 10.00 A= 100.00 


Increasing regularization parameter (۸) 


gives simple decision boundaries 
يشيع استخدام التنظيم 1211226102تاع18 لمنع الضبط الزائد عط 25ء077. تصور الصورة المرئية أعلاه‎ 


حدود القرار التي تم الحصول عليهاني مجموعات البيانات المختلفة من خلال تغيير معلمة التنظيم 
.regularization parameter‏ 


كما هو موضح» تؤدي زيادة المعلمة إلى حد القرار مع انحناءات أقل. وبالمثل؛ فإن تقليل المعلمة ينتج 
حدودًا أكثر تعقيدا للقرار. 


لکن هل تساءلت پومًا عما يدور وراء الكواليس؟ لماذا زيادة المعلمة تفرض حدودًا أبسط للقرار؟ 


لفهم ذلك. ضعنفي اعتبارك معادلة دالة التكلفة ه6ءصدة اوه أدناه (هذا من أجل الانحدار 
2 -ه لكن الفكرة تبقى كما هي بالنسبة للتصنيف). 


من الواضح أن التكلفة تزداد خطيًا واعهه دنا مع المعلمة ۸. 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


Cost Function = Loss + L2 Weight Penalty 
M N 


2 
= ) xiW;)* + 
j=1 j=1 
کے‎ 
Squared Error L2 Regularization Term 


الآنء إذا كانت المعلمة عالية جداء تصبح العقوبة امعم أعلى أيضا. وبالتالي» لتقليل تأثيرها على دالة 
التكلفة الإجمالية» تضطر الشبكة إلى الاقتراب من الأوزان الأقرب إلى الصفر. 


يصبح هذا واضحًا إذا قمنا بطباعة الأوزان النهائية لأحد النماذج» على سبيل المثال واحدةفي أسفل اليمين 
(مجموعة البيانات الأخيرة النموذج الأخير). 


In ]17[: clf.coefs_ 


Out[17]: array([[ 8.35476806e-06, -1.29066987e-05, .49535843e-05, 
8.43964067e-06, 5.46943218e-06, .18557175e-05, 
1.01037005e-05, 3.70503012e-06, .12142850e-06, 

-9.78452613e-06], 

[-1.35980250e-05, 1.52132934e-05, .30938991e-06, 
7.41538247e-07, 1.68626879e-05, .14315983e-05, 
6. 

2. 


64292409e-07, -1.40798113e-06, 1.31551207e-05, 
523794866-05[[( 


إن وجود أوزان أصغر يؤدي إلى إلغاء العديد من الخلايا العصبيةء مما ينتج عنه شبكة أبسط بكثير. هذا 
يمنع العديد من التحولات المعقدة التي كان يمكن أن تحدث لولا ذلك. 


المقالة: 
https://avichawla.substack.com/p/visualising-the-impact-of-regularisation‏ 
الكود: 


https: //github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/What-Does-Regularization- 
Do.ipynb 


00 
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:AutoProfıer (29‏ ملف تعريف إطار البيانات الخاص بك تلقائيًا 
أثناء عملك AutoProfiler: Automatically Profile Your‏ 
DataFrame As You Work‏ 


6ه 
NG‏ 

٠° 
۰ 


avichawla.substack.com 8 DataFrames 


v my_df 1,000 x9 

A Name 1988| 
A Company_Name 115| 
A Employee_Job_Ti... 119| 
A Employee_City |10| 
A Employee_Country |243| 
كعد‎ Employee_Salary n 


min Cî & 470 


Sort by: Last Updated v 


notebook.ipynb 


9ه 
© 513965 


2596 
median مع‎ 


Automatically mean ب‎ 507506.3-4 
9 7596 7567756 
profiled 


max Cî 999840 + 
> Show summary Export Cî 
A Employment_Sta... 
## Employee_Rating 
123 Credits 


811 2013 : تلقائيًا . يعمل بروفایل لإطارات بيانات 102421131265 بانداس ني کل تنفيذ, 
دون أي كود. 

]نلك 32025 : تلقائيًا » فإن إطارات بيانات N2458‏ ۲۸ف كل تنفيذ » دون أي كود. 
AutoProfıler‏ هي أداة تحليل اطار بيانات 10362112126 مفتوحة المصدرفي 0661م [. يقرأ النوتبوك 
الخاص بك ويقوم تلقاتيًا بعرض كل إطار بياناتفي ذاكرتك أثناء تغييرها. 

بمعنى آخرء إذا قمت بتعديل إطار بيانات موجود. فسيقوم برنامج AutoProfıler‏ تلقائيًا بتحديث 
البرنامج المقابل له. 


أيضاء إذا قمت بإنشاء إطار بيانات جديد (على سبيل المثال من إطار بيانات موجود)» فسيقوم 
16021 تلقائيًا بتوفير ذلك أيضاء كما هو موضح أدناه: 


°, avichawla.substack.com 
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0 
0 
0 


import pandas as pd 
my_df = pd.read_csv("file.csv") 


new_df = my_df.sample (100) 


New 
DataFrame 


> my_df 1,000 x9 


تتضمن معلومات البروفايلينك 1٣٤‏ ڇ«ناا؟ه توزيع الأعمدة وإحصائيات الملخص والإحصائيات 
الفارغة وغير ذلك الكثير. علاوة على ذلك» يمكنك أيضًا إنشاء الكود المقابل؛ مع ميزة التصدير الخاصة 


به. 


(0.20%) 
(0.20%) 
(0.20%) 
(0.20%) 
(0.20%) 
(0.20%) 


(0.20%) 
(0.20%) 
(0.20%) 
(0.20%) 


Export CÊ 


Cf William Jones 
Cî Daniel Lee 
rah Smith 
C Anna Thomas 
tî Jennifer Gonzales 
C Nicole Garcia 
CG Derek Perez 


> Show summary 


A Company_Name 


Employee_Job_Ti... 
Employee_City 
Employee_Country "١ 


import pandas as pd 
my_df = pd.read_csv("file.esv") 


my_df [my_df ["Name"] == "Sarah Smith"] 


Code added 
in cell 


المقالة: 


https://avichawla.substack.com/p/autoprofiler-automatically-profile 


الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/DataFrame-Auto- Profile.ipynb 
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0) القليل من الجهد الإضافي يمكن أن يحول بشكل كبير 
مهاراتك في سرد القصص A Little Bit Of Extra Effort Can‏ 
Hugely Transform Your Storytelling Skills‏ 


Profit Margin for top five spend categories 


Matplotlib 


Matplotlib + 
8 0 0 2 a little bit of 


extra effort 


Profit Margin for top five spend categories 
Consumers are willing to pay higher prices for aesthetic and decorative items for their home. 


Stationery 20% 
Toys 
Electronics 
Clothing 10% 


9 
1 "1 © © . 
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يتم التقليل من أهمية ا1ا هام٤1‏ عندما يتعلق الأمر بإنشاء مخططات ذات مظهر احترافي. ومع ذلك 
فهي قادرة تمامًا على القيام بذلك. 


على سبيل المثال» ضعفي اعتبارك المخططات أدناه. 


نعم تم إنشاء كلاهما باستخدام داذا]10م5286. لكن القليل من التنسيق يجعل المخطط الثاني أكثر إفادة 
وجاذبية وسهولةفي المتابعة. 

يساعد العنوان والعنوان الفرعي القصة بشكل كبير. كما أن الحاشية السفلية تحتوي على معلومات إضافية 
مهمة, والتي لا يمكن رؤيتهاني أي مكانفي المخطط الأساسي. 


أخيراء يلفت الشريط الغامق انتباه المشاهد على الفور وينقل أهمية الفئة. 
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إذن ما هى الرسالة هنا؟ 
لكي تكون راويًا جیدا للبيانات «good data storyteller‏ تأكد من أن مخططك يتطلب الحد الأدنى من 
الجهد من المشاهد. وبالتالي؛ لا تترددفي بذل هذا الجهد الإضافي. هذا ينطبق بشكل خاص على البيئات 
المهنية. 

في بعض الأحيان. قد يكون من الجيد أيضا التأكد من أن تصوراتك تنقل القصة الصحيحة؛ حتى لو تم 
عرضهاني غيابك. 


المقالة: 
https://avichawla.substack.com/p/a-little-bit-of-extra-effort-can‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Professional-Plots- With-Matplotlib.ipynb 
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1) ميزة مخفية سيئة في بايثون لا يعرفها الكثير من 
المبرمجين غقط1' A Nasty Hidden Feature of Python‏ 
Many Programmers Aren't Aware Of‏ 


Mutable Default 
Parameter 


add_subject(name, subject, subjects=[l ): 
subjects.append(subject) 
{'name': name, 'subjects': subjects} 


add_subject('Joe', 'Maths') 
add_subject('Bob', 'Maths') 
add_subject('Roy', 'Maths') 


Appended to 


Output: i the same list 
{'name': 'Joe', 'subjects': E ا‎ / 

{'name': 'Bob', Subjects: : E MaRS NN } 
aths', aths' 'Maths ' 


{'name': 'Roy', 'subjects': 


SEN } 
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ربما تكون قابلية التغيير وا ناناة 10 في بايثون من أكثر المفاهيم التي يساء فهمها وتجاهلها. توضح‎ 
الصورة أعلاه مثالاً يكافح العديد من مبرمجي بايثون (خاصة المبتدئين منهم) لفهمه.‎ 


هل يمكنك فهمها؟ إذا لم يكن كذلك. دعونا نفهم ذلك. 

يتم تقييم المعلمات الافتراضية للدالةفي الوقت الذي يتم فيه تحديد الدالة. بمعنى آخرء لا يتم تقييمهاني 
كل مرة يتم فيها استدعاء الدالة (كما هو الحالفي ++0). 

وبالتالى» بمجرد تحديد دالة. يخزن كائن الدالة غعع[01 112602 المعلمات الافتراضيةفي سمة 
الإعدادات الافتراضية 06122111+5_ الخاصة به. يمكننا التحقق من ذلك أدناه: 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


°۰ . 
e avichawla.substack.com 


5 
° 


my_function(a=1, 5-2, c=3): 


my_function.__defaults__ 


35 ا 


وبالتالي» إذا قمت بتحديد معلمة افتراضية قابلة للتغيير 1 طني دالة وقمت بتغييرهاء فإنك تقوم عن 
غير قصد وبدون قصد بتعديل المعلمة لجميع الاستدعاءات المستقبلية لهذه الدالة. 


هذا موضحفي العرض التوضيحي أدناه. بدلاً من إنشاء قائمة جديدة عند كل استدعاء دالة» تلحق بايثون 
العنصر بالسخة نفسها. 
avichawla.substack.com‏ 8 : 
add_subject(...):‏ 
add_subject.‏ 
0 
add_subject('Joe', 'Maths')‏ 
add_subject. __defaults‏ 
(['Maths'],)‏ 
add_subject('Bob', 'Maths')‏ 


add_subject.__defaults 
(['Maths', 'Maths'],) 


add_subject('Roy', 'Maths') 
add_subject.__defaults 
(['Maths', Maths’, 'Maths'],) 


إذن ما الذي يمكننا فعله لتجنب ذلك؟ 


بدلاً من تحديد معلمة افتراضية قابلة للتغييرني تعريف الدالة استبدلها ب ٥٠٠‏ . إذا لم تستقبل الدالة 
قيمة مقابلة أثناء استدعاء الدالة» فقم بإنشاء كائن قابل للتغيير داخل الدالة. 
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هذا موضح أدناه: 


Replace mutable 
parameter 


_subject (name, subject, 
subjects None: 


subjects [1 


subjects.append(subject) 


{'name': name, 'subjects': subjects} 


add_subject('Joe', 'Maths') 
add_subject('Bob', 'Maths') 
add_subject('Roy', 'Maths') 


Output : 


{'name': 'Joe 


'subjects 
'Bob', 'subjects 


name 


ع 
ا 
اع 
0 
8 
ا 


name': 'Roy', 'subjects 
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كما هو موضح أعلاه نقوم بإنشاء قائمة جديدة 1156 7655 إذا لم تتلق الدالة أي قيمة عند استدعائها. يتيح 
لك هذا تجنب السلوك غير المتوقع لتحور نفس الكائن. 
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32( تصور تفاعلي 1 لشجرة قرار مع مخطط سانكي 
Interactively Visualise A Decision Tree With A Sankey‏ 
Diagram‏ 


Values: [80.0.01 


15 5 
E” e avichawla.substack.com 


petal width (em) <= 1.75 
Vales: [D,40,5| 
Predict: versicolor 


petal width (em) > 1.75 
Vaues: 0,1,45] 
Predict. wgnca 


في إحدى منشوراتي السابقة» أوضحت سبب تجاوز أشجار قرارات 5116252 للبيانات بمعلماتها 
الافتراضية (اقرأ هنا إذا كنت ترغبفي الرجوع). 


لتجنب ذلك. يوصى دائمًا بتحديد قيم المعلمة الفائقة #عغ6 1297061021212 المناسبة. يتضمن ذلك أقصى 
عمق للشجرة؛ وعينات دقيقةفي عقد الأوراق إلخ. 

ولكن غالمًا ما يتم تحديد قيم المعلمات الفائقة ص باستخدام التجربة والخطأ «trial-and-error‏ والتي 
يمكن أن تكون مملة بعض الشيء وتستغرق وقتا طويلا. 

يتيح لك مخطط سانكي 5221 أعلاه تصور تفاعلي لتنبؤات شجرة القرارني كل عقدة. 


أيضاء يتم ترميز عدد نقاط البيانات من كل فئة بالحجم على جميع العقد, كما هو موضح أدناه. 


اا علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


Number of 013551 Samples 


petal width (cm) <= 1.75 
Values: [0,49,5] 
Predict: versicolor 


Number of 
Class2 Samples 


هذا يعطي على الفور تقديرًا لشوائب رانعدم دم العقدة. بناءَ على ذلك» يمكنك أن تقرر بصريًا تقليم 
©5112 الشجرة. 

على سبيل المثالءفي شجرة القرار الكاملة الموضحة أدناه. يبدو أن تقليم الشجرة على عمق اثنين أمر 
معقول. 


بمجرد حصولك على تقدير تقريبي لقيم المعلمات الفائقة هذه. يمكنك تدريب شجرة قرار جديدة. بعد 
ذلك. قم بقياس أدائها على البيانات الجديدة لمعرفة ما إذاكانت شجرة القرار معممة أم لا. 


المقالة: 
https://avichawla.substack.com/p/interactively-visualise-a-decision‏ 
الكود: 


https://avichawla.substack.com/p/interactively-visualise-a-decision 
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3) استخدم المدرجات التكراري بحذر. إنها مضللة للغاية! 
Use Histograms with Caution. They Are Highly‏ 
!Misleading‏ 


avichawla.substack.com 
Same Data, VERY Different Histograms 


Bin Count = 10 Bin Count = 15 Bin Count = 20 


Bin Count = 25 Bin Count = 30 Bin Count = 35 


Bin Count = 40 Bin Count = 45 Bin Count = 50 


من ا 1 -«» 0 
200 175 150 125 100 75 00 175 150 125 100 75 


تُستخدم المدرجات التكرارية 5تتتهرع 11150 بشكل شائع لتصور البيانات 715112112261012 0362 . لكنها 
قد تكون مضللةفي بعض الأحيان. إليكم السبب. 


تقسم المدرجات التكرارية البيانات إلى حاويات 115 صغيرة وتمثل تكرار كل حاوية. 
وبالتالي» فإن اختيار عدد الحاويات التي تبدأ بها يمكن أن يؤثر بشكل كبير على شكلها. 


يوضح الشكل أعلاه المدرجات التكرارية التي تم الحصول عليها من نفس البيانات» ولكن عن طريق تغيير 
عدد الحاويات. ينقل كل مدرج تكراري قصة مختلفة على الرغم من أن البيانات الأساسية هي نفسها. 


100 125 150 175 00 


قد يكون هذا مضللاني بعض الأحيان وقد يؤدي بك إلى استخلاص استنتاجات خاطتة. 


القصد ليس أنه لا ينبغي استخدام المدرجات التكرارية. بدلاً من ذلك انظر إلى التوزيع الأساسى أيضًا. 
هناء يمكن أن يساعد مخطط الكمان 10132 ومخطط 12101. 
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مخطط الكمان 
على غرار المخططات الصندوقية 1066م ×0ط تظهر مخططات الكمان أيضًا توزيع البيانات بناءً على 
الربعية 0112111165. ومع ذلك. فإنه يضيف أيضًا تقدير كثافة النواة 065167 2261عع1 لعرض كثافة البيانات 


Violin Plot 


avichawla.substack.com 
يوفر هذا عرض أكثر تفصيلاً للتوزيع» لا سيمافي المناطق ذات الكثافة العالية.‎ 
KDE مخطط‎ 
تستخدم مخططات 11018 منحنيا سلسًا لتمثيل توزيع البيانات» دون الحاجة إلى تجميع البيانات‎ 
كما هو موضح أدناه:‎ «binning 


KDE Plot 


avichawla.substack.com 


كملاحظة مغادرةء تذكر دائمًا أنه كلما قمت بتكثيف مجموعة بيانات» فإنك تخاطر بفقدان معلومات 


مهمة. 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


وبالتالي» ضع في اعتبارك أي قيود (وافتراضات) للتصورات التي تستخدمها. أيضًاء ضعفي اعتبارك استخدام 
طرق متعددة للتأكد من أنك ترى الصورة كاملة. 


المقالة: 
https://avichawla.substack.com/p/use-histograms-with-caution-they‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Misleading- Hist-Plots.ipynb 
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4) ثلاث طرق بسيطة (فورية) تجعل مخططات التشتت خالية 
من الفوضى Three Simple Ways To (Instantly) Make‏ 
Your Scatter Plots Clutter Free‏ 


Default Scatter Plot 
O: 52906 ١ Cluttered and 
۰ و‎ difficult to 


interpret 


Better 
Alternatives 


تستخدم المخططات المبعثرة (مخططات التشتت) 01065 5026665 بشكل شائعفي مهام تصور البيانات. 
ولكن عندما يكون لديك العديد من نقاط البيانات» فغاليًا ما تكون كثيفة للغاية بحيث لا يمكن تفسيرها. 


فيما يلي بعض الأساليب (والبدائل) التي يمكنك استخدامها لجعل بياناتك قابلة للتفسير [م]©1م10661 
فى مثل هذه الحالات. 

قد تكون إحدى أبسط الطرق وأكثرها فاعلية هي تقليل حجم العلامة 5131©7. هذاءفي بعض الأحيان. 
يمكن أن يوفر على الفور وضوحًا أفضل على المخطط الافتراضي. 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


Cluttered and Clear and‏ يهنا 
difficult to easy to‏ 


interpret interpret 


بعد ذلك كبديل لمخطط التبعثر» يمكنك استخدام مخطط الكثافة +10م «density‏ الذي يصور توزيع 
البيانات. هذا يجعل من السهل تحديد المناطق ذات الكثافة العالية والمنخفضة. والتى قد لا تكون واضحة 
من مخطط التبعثر. 


Default Scatter Plot 


Cluttered and 0362 
difficult to Density 
interpret Curve 


أخيراء يمكن أن يكون البديل الأفضل هو مخطط «نا×هط. يقوم بتجميع الرسم البيانيفي مناطق سداسية 
215 2628011211 وتعيين كثافة اللون بناءَ على عدد النقاطفي تلك المنطقة. 
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Cluttered and Hexagonally 


difficult to grouped 
interpret 0263 


المقالة: 
https://avichawla.substack.com/p/three-simple-ways-to-instantly-make‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/3-Tips-For-Better-Scatter-Plots.ipynb 
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5) نقطة (عالية) مهمة يجب مراعاتها قبل استخدام 
KMeans‏ في المزة القادمة A (Highly) Important Point to‏ 
Consider Before You Use KMeans Next Time‏ 


5o Models of KMeans 


0 KMeans converges 
5 correctly only once 


: 
١ 
0 2 


Dataset 


50 Models of KMeans++ 


Frequency 


Number of Misplaced Centroids 


الخطوة الأكثر أهمية والتي غالبًا ما يتم تجاهلها من 161/1695 هي تهيئة النقطه الوسطى 6726:010© 
60 نل 6نصة. إليك شىء يجب مراعاته قبل استخدامدفي المرة القادمة. 


يختار K٥»‏ النقط الوسطى الأولية بشكل عشوائي. نتيجة لذلك» فشلفي التقارب عع02567ع في 
بعض الأحيان. هذا يتطلب منا تكرار التجميع 011156611128 عدة مرات مع تهيئة مختلفة. 


ومع ذلك. قد لا يضمن التجميع المتكرر نك ستنتهي قريبًا بالمجموعات الصحيحة. هذا صحيح بشكل 
خاص عندما يكون لديك العديد من النقط الوسطى لتبداً. 


بدلاً من ذلك» يتخذ ++وم ه1216 نهجًا أكثر ذكاءً لتهيئة النقط الوسطى. 


يتم اختيار النقطة الوسطى الأول عشوائيا. ولكن يتم اختيار النقطة الوسطى التالية على أساس المسافة من 
النقطة الوسطى الأول. 


ES‏ علم البيانات: 200 نصيحة في بايثون وعلم البيانات 
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Initial Centroid 1 Initial Centroid 2 


٠° ©. 
ذر؟‎ ee 06 5 2 
. 2 0 


بعبارة أخرى» من المرجح أن يتم تحديد النقطة البعيدة عن النقطة الوسطى الأولى كنقطة مركزية أولية. 
بهذه الطريقة» من المحتمل أن تقع جميع النقط الوسطى الأوليةفي مجموعات مختلفة بالفعل» وقد تتقارب 
الخوارزمية بشكل أسرع وأكثر دقة. 

التأثير واضح من المخططات الشريطية 1065م هط الموضحة أدناه. يصورون تواتر عدد النقط الوسطىفي 
غير محلها التي تم الحصول عليها (تم تحليلها يدويًا) بعد تدريب 50 نموذجًا مختلفا باستخدام 
KMeans‏ و .KMeans++‏ 


فى مجموعة البيانات المحددة. من بين النماذج الخمسين. أنتجت KMeans‏ صفرًا من النقط الوسطى 
في غير محلها مرة واحدة. وهو معدل نجاح يبلغ 2 / فقط. 
Models of KMeans‏ 50 


KMeans converges 
correctly only once 
6 


Frequency 


1 2 3 4 5 6 


Number of Misplaced Centroids 
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في المقابل» لم ينتج ++152/1635 أبدا أي نقطتين الوسطىفي غير محله. 
Models of KMeans+ +‏ 50 


KMeans++ 
converges 
correctly always 


33 
8 

ك 
ك 

> 
3 
3 


Number of Misplaced Centroids 


لحسن الحظء إذا كنت تستخدم ١٣دء1)ي‏ فلا داعي للقلق بشأن خطوة التهيئة. هذا لأن ١٣14ء‏ بشكل 
افتراضي» تلجأ إلى نهج + )Me415+‏ 


ومع ذلك» إذاكان لديك تطبيق مخصص,» ففكر فيه. 
المقالة: 
https://avichawla.substack.com/p/a-highly-important-point-to-consider‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/50-KMeans-Models.ipynb 
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6) لماذا يجب تجنب إلحاق الصفوف بإطار بيانات 1املآ تقط77؟ 
Should Avoid Appending Rows To A DataFrame‏ 


DataFrame Size vs Row Append Time 


2 
3 
وه 
0 
5 
F2‏ 
و 
ع 
6 
o.‏ 
92 
< 


R Uptrend in 
Append 
Run-time 


00 30000 40000 50000 
Total Rows 


نظرًا لأننا نلحق لطعم طه المزيد والمزيد من الصفوف 1015 ب 10262111311216 Pandas‏ يستمر وقت 
تشغيل الإلحاقفي الزيادة. إليكم السبب. 
يعد 10262111212 بنية بيانات ذات عمود رئيسي. وبالتالي» يتم تخزين العناصر المتتاليةفي عمود بجانب 
بعضها البعض في الذاكرة. 
SE SE EN a ١‏ 
+امc‏ | ام 2ام اا 


مع إضافة صفوف جديدة: يريد 2211025 دائمًا الحفاظ على شكل العمود الرئيسي. 
ولكن أثناء إضافة صفوف جديدة؛ قد لا تكون هناك مساحة كافية لاستيعابها مع الحفاظ أيضًا على هيكل 
العمود الرئيسى. 
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في مثل هذه الحالة» يتم نقل البيانات الموجودة إلى موقع ذاكرة جديد. حيث يجد 12025 كتلة متجاورة 
من الذاكرة. 
وبالتالى» مع نمو الحجم تزداد إعادة تخصيص الذاكرة تواتراء ويستمر وقت التشغيلفي الزيادة. 


قد يكون سبب الارتفاعات المفاجئةني هذا الرسم البياني هو نقل عمود يأخذ ذاكرة أعلى إلى موقع جديد 
في هذه المرحلةء وبالتالي يستغرق وقتا أطول لإعادة التخصيص. أو تم إزاحة العديد من الأعمدةفي وقت 
واحد. 


إذن ما الذي يمكننا فعله للتخفيف من هذا؟ 
تنشأ الزيادةفي وقت التنفيذ فقط لأن 22110125 تحاول الحفاظ على هيكل العمود الرئيسي. 


وبالتالی» إذا كنت تنوي تطوير إطار بيانات (من منظور الصف هؤ1ل/لا-/لاه]) بشكل متكررء فمن الأفضل 
أن تقوم أولاً بتحويل إطار البيانات إلى بنية بيانات أخرى, أو قاموس أو مصفوفة صغيرة» على سبيل المثال. 
قم بتنفيذ عمليات الإلحاق هناء وعند الانتهاء. قم بتحويله مرة أخرى إلى إطار بيانات. 


ملاحظة. إضافة أعمدة جديدة ليست مشكلة. هذا لآن هذه العملية لا تتعارض مع الأعمدة الأخرى. 


المقالة: 
https://avichawla.substack.com/p/why-you-should-avoid-appending-rows‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Append-Run-Time.ipynb 
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7) يحتوى طنته1م182 على العديد من الأحجار الكريمة 
المخفية. هنا واحد Matplotlib Has Numerous aia‏ 
Hidden Gems. Here's One of Them‏ 


Lines on top 


Default 
rendering 


ا 


Controlled 
rendering 


Dots on top 


لا 017 00006 E‏ 
لا +56285632200 - 16م 


ordering و‎ 


تعد قابلية التخصيص انااةندطهوناء واحدة من أفضل إمكانات 15اغ10م22 حتى الآن التي تم 
التقليل من شأنها. إليك شيء مثير للاهتمام يمكنك فعله به. 


بشكل افتراضي» يعرض انا هام٤هدط‏ أنواعًا مختلفة من العناصر 616126115 (تسمى أيضًا 515ة): مثل 
المخططات 1065م والتسميات 6520عع1 والنصرص 625 وما إلى ذلك بترتيب محدد. 
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لكن هذا الترتيب قد لا يكون مرغويّافي جميع الحالات. خاصة عندما تكون هناك عناصر متداخلةفي 
المخطط. أو عندما يخفى العرض الافتراضى بعض التفاصيل المهمة. 

باستخدام معلمة ©20206. يمكنك التحكمفي ترتيب العرض هذا. نتيجة لذلك تظهر المخططات ذات 
قيمة دعن 2ه 2 الأعلى أقرب إلى العارض ويتم رسمها أعلى 2160565 بقيم 200617 منخفضة. 

أخيرًاءفي العرض أعلاه. إذا حددنا 2006-0 للمخطط الخطي 106م مصناء نلاحظ أنه يسير خلف 
خطوط الشبكة. 


0 لله 


Line behind grid‏ ا 


يمكنك الحصول على مزيد من التفاصيل حول ه020 هنا: مستندات طMatplotli.‏ 
المقالة: 
https://avichawla.substack.com/p/matplotlib -has-numerous-hidden-gems‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Matplotlib-Rendering-Order.ipynb 
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۸  نوثياب شيء غير بديهي حول قواميس‎ )8 
Counterintuitive Thing About Python Dictionaries 


my_dict { 


"076 )721022('+ 
"One GONE), 

'Oone (bool)', 
'One (string) ' 


my_dict dict only 
{1.0 2 506 (DOO, ا لل -ه»ه‎ 
a ° مر"‎ )52216( 
2 keys 


على الرغم من إضافة 4 مفاتيح 5لإع1 مميزة إلى قاموس بايثون 0166102237 «دمطغ29. هل يمكنك 
إليكم السبب. 


في بايثون» تجد القواميس مفتاحًا يعتمد على معادلة التجزئة 112512 (محسوبة باستخدام 100ءة1) » ولكن 
ليس الهوية 10611167 (محسوبة باستخدام ()10). 


في هذه الحالة. ليس هناك شكفي أن 1.0 و 1 و 1٣٠٠‏ بطبيعتها أنواع بيانات مختلفة وهي أيضًا كائنات 
مختلفة. هذا موضح أدناه: 


310)1-8( ٠ 1001( ١: 130)12108( 
(153733, 127473, 493931( 


type(1.0), type(1), type(True) 
(float, int, 25670 
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ومع ذلك. نظرًا لأنها تشتركفي نفس قيمة التجزئة فإن القاموس يعتبرها نفس المفاتيح. 


لكن هل لاحظت أنهني العرض التوضيحي» المفتاح النهائي هو 1.0., بينما تتوافق القيمة مع المفتاح 


. True 


my_dict 
'One (bool) i: One (SEEINS) 


value of boolean key 


هذا لأنه.في البدايةء يتم إضافة 0. 1 كمفتاح وقيمته هي " (+2102) همه". بعد ذلك» أثناء إضافة المفتاح 
1 يتعرف عليه بايثون على أنه معادل لقيمة التجزئة. 

وبالتالي» يتم استبدال القيمة المقابلة ل 0. 1بواسطة "(غ15) هعمه". بينما يتم الاحتفاظ بالمفتاح 
(1.0)كماهو. 


أخيراء أثناء إضافة ©7:<1. تمت مصادفة تكافؤ تجزئة آخر بمفتاح موجود 0. 1. مرة أخرى. تم استبدال 
القيمة المقابلة ل 0. 1» والتي تم تحديثها إلى " (+12) ٠١٠‏ "في الخطوة السابقةء ب" (01ه60) عص0". 


أنا متأكد من أنك ريما تكون قد خمنت بالفعل سبب الاحتفاظ بمفتاح السلسلة 1 . 1 
المقالة: 
https://avichawla.substack.com/p/a-counterintuitive-thing-about-python‏ 
الكود: 
https://github.com/ChawlaAvi/Daily-Dose-of-Data‏ 


Science/blob/main/Python/Counterintuitive-Dictionaries.ipynb 
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9 ربما تكون أسرع طريقة لتنفيذ كود بايثون الخاص بك 
Probably The Fastest Way To Execute Your Python‏ 
Code‏ 


© © dö big_loop.py 


result = ][ 
for a in range(10000) : 
for b in range(10000) : 
11 )23+(911 5 5“ 
result.append((a,b)) 


© © Python 


5 python bis_loop.py 
# Run-time: 16 . 5 


© © Codon 


5 660615 EUn bis loop. 1 


غالبًا ما يشعر العديد من مبرمجي بايثون بالإحباط من وقت تشغيل بايثون. إليك كيفية جعل التعليمات 
البرمجية الخاصة بك سريعة للغاية عن طريق تغيير سطر واحد فقط. 

Codon‏ هو مترجم بايثون 601225111 291012 مفتوح المصدر وعالي الأداء. على عكس كونك 
مترجمّاء يقوم بتجميع كود بايثون الخاص بك إلى كود الآلة السريع. 

وبالتالي» بعد التجميع piy «compilation‏ تشغيل التعليمات البرمجية الخاصة بك بسرعة كود الجهاز 
الأصلي. نتيجة لذلك. غالبًا ما تكون عمليات التسريع النموذجية بترتيب 50 مرة أو أكثر. 
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وفقًا للمستندات الرسميةء إذا كنت تعرف لغة بايثون» فأنت تعرف بالفعل 99/ من 000012. توجد 
اختلافات دقيقة جد بين الاثنين» يمكنك قراءتها هنا: مستندات 0001© . 


ابحث عن المزيد من نتائج قياس الأداء بين ددهداغ/(2 و0000 أدناه: 


avichawla.substack.com 


© © @ pi.py 


def pi_approx(n_terms) : 


mum 


Function to find the 
approximate value of pi. 


O‏ - 1/5 + 1/53 - 4234 - 1م 


© © Codon 


codon run fib.py # N=35 


Tıme: 0. 5 


codon run 61 لام.‎ # 


codon run pi.py # n_terms=10^8 


# Time: 0.35 


المقالة: 


5 


N-2) 


10^8 


© © 0 fib.py 


def fib(N) : 


Function to find the 
Nth Fibonacci number. 


fib(N) = fib(N-1) + fib( 


© © Python 


python fib.py # N=35 
+ Time: 2.53s 


python fib.py # N=45 
Time: 296s 


python pi.py # n_terms 
Time: 14.7s 


https://avichawla.substack.com/p/probably-the-fastest-way-to-execute 


https://github.com/ChawlaAvi/Daily-Dose-of-Data-Science/blob/main/Run- 
time%200Optimization/Codon-vs-Python.ipynb 
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0) هل أنت متأكد من أنك تستخدم مصطلحات 5هدلصوط 
الصحيحة؟ Are You Sure You Are Using The Correct‏ 
?Pandas Terminologies‏ 
avichawla.substack.com‏ 
Selecting.py © © © Slicing.py‏ 2 ® © 


Extracting col(s) 4 Extracting row(s)‏ جه 


>>> df COL >>> df.iloc[0] 
>>> df.loc[:, 'col-name' ] >>> df .loc['row-name ' [ 


© © @ Indexing.py 


4 Selecting + Slicing 


>>> 075-102] 7 1201-1016: "601221 
>>> 08.16] ' ,'ع3م-سامع‎ 'col-name'] 


© © @ Filtering.py 


Conditional subsetting‏ جه 


>>> df[df.col>10] 
SS 050017 COL ASIRNOTEA, BDN 


يستخدم العديد من مستخدمي Pandas‏ المصطلحات الجزئية لإطار البيانات Dataframe subsetting‏ 
terminologies‏ بشكل غير صحيح. لذلك دعونا نقضي دقيقة لتصحيح الأمر. 
6 تعني استخراج القيمة (القيم) من إطار البيانات. يمكن القيام بذلك بأربع طرق: 

1) نسميها 581:80711[6 عندما نستخرج واحد أو أكثر من بناءً على موقع الفهرس :1006 


cationا‏ أو الاسم عتصدم. الإخراج يحتوي على بعض الأعمدة 175 وجميع 
الصفوف. 
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coll cola col3 col4 cola شا‎ 
7 


Ma 
mE 


الإخراج على بعض الصفوف 1011/5 me‏ 


coا1‎ cola ام‎ col4 
Vl, 


3) نسميها 1ND ۴E×1۸6‏ عندما نستخرج كلا من وبناءً على موقع الفهرس أو الاسم. 


cola col3 col4‏ أام» 
777 


4) نسميها ER16‏ ۴111۲ عندما نستخرج ۴0۷8 ويناءً على الشروط 5م020160©. 
col1 cola col col4‏ 


coll cola col3 col4 
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بالطبع» هناك العديد من الطرق الأخرى التي يمكنك من خلالها إجراء هذه العمليات الأربع. 


إليك دليل 232025الشامل الذي أعددته مرة واحدة: خريطة ئة يرجى الرجوع إلى فرع اچ 
۴ الفرعية" لقراءة طرق 511566602 المختلفة ) 


المقالة: 
https://avichawla.substack.com/p/are-you-sure-you-are-using-the-correct‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Subsetting- Terminology.ipynb 
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1 ) هل عدم توازن الفثة دائما مشكلة كبيرة يجب التعامل 
معها؟ Is Class Imbalance Always a Big Problem to Deal‏ 


?With 


Imbalance with 


low "class 
separability" 


© Majority class 
© Minority class 


© Majority class 
© Minority class 


Imbalance with 
high "class 
separability” 


غالا ما تكون معالجة عدم توازن الفئة 1025213266 1255ه تحديّانفي التعلم الآلى. ومع ذلك فقد لا يتسبب 


ذلك دائمافي حدوث مشكلة. إليكم السبب. 


أحد العوامل الرئيسيةفي تحديد تأثير عدم التوازن 12213266 هو الفصل بين الفثات 1255© 


.separability 


كما يوحي الاسم فإنه يقيس الدرجة التي يمكن من خلالها التمييز بين فئتين أو أكثر أو فصلهما عن 
بعضهما البعض بناءً على قيم السمات 721065 ع2612ع1 الخاصة بهما. 
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عندما تكون الفتات قابلة للفصل بدرجة كبيرة» يكون هناك القليل من التداخل بين توزيعات ميزاتها (كما 
هو موضح أدناه). هذا يسهل على المصنف التعرف على فئة المثيل الجديد بشكل صحيح. 


Feature 
Distribution 


وبالتالي» على الرغم من عدم التوازن» حتى لو كانت بياناتك تتمتع بدرجة عالية من قابلية الفصل بين 
الفثات» فقد لا يمثل عدم التوازن مشكلةفي حد ذاتها. 


في الختام. ضعفي اعتبارك تقدير قابلية الفصل بين الفئات قبل القفز إلى أي خطوات نمذجة معقدة. 
يمكن القيام بذلك بصريًا أو عن طريق تقييم مقاييس عدم التوازن المحددة على نماذج بسيطة. 


توضح الصورة أدناه حدود القرار decision boundary‏ التي تم تعلمها من خلال نموذج الانحدار 
اللوجستى 7676551012 1015616 على مجموعة البيانات القابلة للفصل بين الفتات. 


Decision 
Boundary 


المقالة: 
https://avichawla.substack.com/p/is-class-imbalance-always-a-big-problem‏ 
الكود: 


https://avichawla.substack.com/p/is-class-imbalance-always-a-big-problem 
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42) حيلة بسيطة تجعل الخرائط الحرارية أكثر أناقة عمامصا؟ A‏ 
That Will Make Heatmaps More Elegant‏ عاعت 1' 


Color-encoded 
AEEULLET*) 


ا 


م JIHGFEDCB‏ يم 


J #6‏ )| 8 6 © 86 865 65 8 عم 


e 


Color + size 
encoded 
EEE) 


ا 


غالبًا ما تجعل الخرائط الحرارية 5م1162622 تحليل البيانات أسهل بكثير. ومع ذلك» يمكن إثرائها 
بتعديل بسيط. 


- 90 18 5 15 18 80 1 1 
-" " 58 505 5 " 10! 11 1 


6 
8 
3 
3 
اله 
لا 
ها 
E‏ 
لا 
8 


Kî u BT 00 5 2 5 99 PDP BP 
n EREN" 
3 8 wm 
الا ا‎ 


تمثل خريطة الحرارة التقليدية القيم باستخدام مقياس اللون ©5021 0102». ومع ذلك فإن تعيين لون 
الخلية للأرقام لا يزال يمثل تحديًا. 


يمكن أن يكون تضمين مكون الحجم مفيدا للغايةني مثل هذه الحالات.في جوهرهاء كلما زاد الحجم. 
زادت القيمة المطلقة. 

هذا مفيد بشكل خاص لجعل الخرائط الحرارية أكثر نظافةء حيث ستتقلص العديد من القيم القريبة من 
الصفر على الفور. 
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في الواقع. يمكنك تمثيل الحجم بأي شكل آخر. أدناه. قمت بإنشاء نفس الخريطة الحرارية باستخدام 
دائرة بدلاً من ذلك: 


HÎ Color-encoded 
heatmap 


Color + size 
encoded 
heatmap 


5 


A 
8 
c 
D 
E 
F۴ 
G 
H 

1 
J 
K 


https://avichawla.substack.com/p/a-simple-trick-that-will-make-heatmaps 


الكود: 


https://avichawla.substack.com/p/a-simple-trick-that-will-make-heatmaps 
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3 مقارنة مرئية بين المجاميع المحلية والقائمة على الكثافة 
A Visual Comparison Between Locality and Density-‏ 
based Clustering‏ 


DBSCAN 


Dataset A 


Dataset B 


5 
8 
5 
2 
5 
2 


Dataset D 


تقتصر فائدة 11/625 على مجموعات البيانات ذات المجموعات الكروية „spherical clusters‏ 
وبالتالي» من المرجح أن ينتج عن أي تباين تجميع غير صحيح. 


يمكن أن تكون خوارزميات التجميع المستندة إلى الكثافة ›Density-based clustering‏ مثل 
185017 بديلاً أفض لف مثل هذه الحالات. 


يقومون بتجميع نقاط البيانات بناءً على الكثافة. مما يجعلها قوية لمجموعات البيانات ذات الأشكال 
والأحجام المختلفة. 


توضح الصورة مقارنة 151/2115 مقابل 417 )1015في مجموعات بيانات متعددة. 
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كما هو موضح» يعمل 162/16215 بشكل جيد فقط عندما تحتوي مجموعة البيانات على مجموعات 
كروية. لكنفي جميع الحالات الأخرى. فشلفي إنتاج مجموعات صحيحة. 
يمكنك العثور على المزيد هنا: دليل 5121»211. 
المقالة: 
https://avichawla.substack.com/p/a-visual-comparison-between-locality‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/KMeans-vs-DBSCAN.ipynb 
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4)) لماذا لا نطلق عليه التصنيف اللوجستي بدلا من ذلك؟ 
?Why Don't We Call It Logistic Classification Instead‏ 


Logistic Heageessien 


Classification 


هل تساءلت يومًا لماذا يسمى الانحدار اللوجستی 7687655101 1015616 "الانحدار 101ووعوع7" عندما 
نستخدمه فقط لمهام التصنيف 13551852012؟ لماذا لا نسميها "تصنيف لوجستي 1560ع10 
03 عوضًا عن ذلك؟ إليكم السبب. 


يفسر معظمنا الانحدار اللوجستي على أنه خوارزمية تصنيف. ومع ذلك فهي خوارزمية انحدار بطبيعتها. 
هذا لأنه يتنبا بنتيجة مستمرة. وهو احتمال وجود فة 01255. 


Probability 
of class 


الك = 
إ 0.75 سس چ | Sample‏ 
ALLE ILLS‏ 


Logistic Regression 


فقط عندما نطبق تلك العتبات 0176510105 ونغير تفسير ناتجها يصبح خط الأنابيب بأكمله فئة. 


| Sample 


Classifier 
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ومع ذلك فمن الناحية الجوهرية» لا تقوم الخوارزمية أبدًا بالتصنيف. تلتزم الخوارزمية دائمًا بالانحدار. 
وبدلاً من ذلك. فإن تلك الخطوة الإضافية لتطبيق عتبات الاحتمال sل1ه‏ ط۲ط رنازاةطهم هي التي 
المقالة: 
https://avichawla.substack.com/p/why-dont-we-call-it-logistic-classification‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/ Why -logistic-reg-is-reg.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 119 


5 شيء نموذجي حول أشجار القرار يتجاهله كثيرون في كثير 
من الأحيان A ‘Typical Thing About Decision 'Trees‏ 
Which Many Often Ignore‏ 


Dataset 


Noisy 


samples 


Decision Boundary 


Overfitted 
boundaries 


على الرغم من أن أشجار القرار ٠٠١‏ 06015101 بسيطة وبديهية: إلا أنها تحتاج دائمًا إلى مزيد من الحذر. 
إليك ما يجب أن تتذكره دائمًا أثناء تدريبهم. 


في تنفيذ 511635: بشكل افتراضي» يُسمح لشجرة القرار بالنمو حتى تصبح جميع الأوراق نقية. يؤدي 
هذا إلى الضبط الزائد 0771684138 حيث يحاول النموذج تصنيف كل عينةفي مجموعة التدريب. 

هناك تقنيات مختلفة لتجنب ذلك مثل التقليم عصنصدحم والتجميع ع«نااصطعءدء. تأكد أيضًا من ضبط 
المعلمات الفائقة 137061021216615 إذا كنت تستخدم تنفيذات <تنوعء1؟51. 

كان هذا تذكيرًا لطيفًا لأن الكثير منا يميل غالبا إلى استخدام تنفيذات 116352وفي تكوينها الافتراضي. 


من الممارسات الجيدة دائمًا معرفة ما يخفيه التنفيذ الافتراضى تحته. 
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المقالة: 
https://avichawla.substack.com/p/a-typical-thing-about-decision-trees‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/Use-Decision-Tree- With- 
Caution.ipynb 
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6) تحقق دائما من متغير الإخراج قبل استخدام الانحدار الخطي 
Always Validate Your Output Variable Before Using‏ 


Linear Regression 


Distribution of Y Regresslon fiton Y 


Skewed 


a الل‎ 


lla... . 
قرا‎ 


log transform 


Distribution of log(Y) 


log(Y) 


تعتمد فعالية نموذج الانحدار الخطي 76876551012 11221 إلى حد كبير على مدى توافق بياناتنا مع 
الافتراضات الأساسية للخوارزمية. 


يفترض الانحدار الخطي أن القيم المتبقية 7651011215 (التنبؤ الفعلي 560166102م-2061131) تتبع التوزيع 
الطبيعى 0156115116101 12011121. إحدى الطرق التى قد ينتهك بها هذا الافتراض هى عندما يكون ناتجك 
منحرقًا 754 512. 


لكن الشيء الجيد هو أنه يمكن تصحيحه. إحدى الطرق الشائعة لجعل الناتج متماثلًا قبل إجراء نموذج 
هو تطبيق تحويل السجل 65225101111 ع10. 
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يكيل اترات عر ريق دري الياناف الانيا بجلا تدر عي الد ها 
شيء واحد يجب ملاحظته هو أنه إذا كان الناتج يحتوي على قيم سالبةء فإن تحويل السجل سيؤدي إلى 
حدوث خطأ.في مثل هذه الحالات» يمكن للمرء تطبيق تحويل الترجمة 6521151011771261011 translation‏ 
أولاً على الإخراج متبوعًا بالسجل. 
المقالة: 
https://avichawla.substack.com/p/always-validate-your-output-variable‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/Linear-Regression-Check- 
Output.ipynb 
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7) حقيقة غير بديهية حول دوال بايثون ‏ ۸ 


Counterintuitive Fact About Python Functions 


© © Fo avichawla.substack.com 


# Define a function 
>>> 061 MV TURNC(): 5 


2 1) Verify the type of 
>>> type (my_func) 
<elass TUNEtIOR> 


# 2) Ad w attributes to function ob 
>>> my_func.my_attr 'new_attribute' 
2>> 0/1011 2-1 

'new_attribute' 


5) Pass as an 6 ULE 


>>> def new_func(f): pass 
>>> new_func(my_func) 


'my_func' 
>>> MVETUnNnE. 00 - 
{'my_attr': 'new_attribute' } 


كل شي ءني بايثون هو كائن 6مءزطاه تم إنشاء مثيل له من فئة 01255 ما. يتضمن هذا أيضًا الدوال 
اتاگ لكن قبول هذه الحقيقة غالبا ما يكون مخالفًا للحدس في البداية. 


فيما يلي بعض الطرق للتحقق من أن دوال بايثون هي بالفعل كائنات. 

ينشأ الاحتكاك 6160 عادة بسبب معرفة المرء بلغات البرمجة الأخرى مثل ++0© و2872[ والتى تعمل 
ومع ذلك. فإن لغة بايثون هي لغة برمجة موجهة للكائنات object-oriented programming‏ 
(7©©). انت تستخدم دائمًا 0۶ 0. ريما دون أن تدرك ذلك. 
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المقالة: 
https://avichawla.substack.com/p/a-counterintuitive-fact-about-python‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Functions- Are- Objects.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 125 


8) لماذا من المهم خلط مجموعة البيانات عشوائيًا قبل 
تدريب نموذج التعلم الآلي Why Is It Important To Shuffle‏ 
Your Dataset Before Training An ML Model‏ 


Unshuffled_data.py‏ م 


Epoch 
1 00 


10 
1 
1 
1 
1 
1 
1 
1 


[100/100] 116.14 


Fails to Converges 
converge EEELULEEEI) 


قد تفشل نماذج التعلم الآليفي التقارب ءعإء ۷١٠٥ء‏ لأسباب عديدة. هذا واحد منهم غالبا ما يغفل عنه 
کشر من الناس. 

إذا تم ترتيب بياناتك حسب التصنيفات» فقد يؤثر ذلك سابًا على تقارب النموذج ودقته. هذا خطأ يمكن 
أن يمر عادة دون أن يلاحظه أحد. 

في العرفن أعلاه. قمت بكدريب: شبكدين عصييتين على نفس البيانات. كلتا الشبكتين لها نفس الأوزان 
الأولية 12112115 ومعدل التعلم learning rate‏ والإعدادات الأخرى. 

ومع ذلك.ني إحداهاء تم ترتيب البيانات حسب التسميات (التصنيفات) واه طاه1ء بينمافي أخرى» تم حذفها 
كما هو موضح. فشل النموذج الذي يتلقى مجموعة بيانات مرتبة حسب التسمية 12661-01206760 
لف التقارب. ومع ذلك» فإن عرض مجموعة البيانات يسمح للشبكة بالتعلم من عينة بيانات أكثر 
تمثيلآني كل دفعة داعغ62. هذا يؤدي إلى تعميم وأداء أفضل. 
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بشكل عام يعد اختيار مجموعة البيانات قبل التدريب ممارسة جيدة. هذا يمنع النموذج من تحديد أي 
أنماط تسمية محددة غير موجودة حتى الآن. 
في الواقع» يوصى أيضًا بتغيير البيانات الخاصة بالدفعاتفي كل فترة داعومءع. 
المقالة: 
https: //avichawla.substack.com/p/why -is-it-important-to-shufle-your‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/ Why -Shuffle-Data.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 18 


۲1٥ قيود الخريطة الحرارية التي تبطئ تحليل بياناتك‎ )9 
Limitations Of Heatmap That Are Slowing Down 
Your Data Analysis 


Heatmap 


Clustered 
Heatmap 


5 


8 8 8 8 3 8 فم ع ع 3 23 83 85 5 ع 
غالبا ما تجعل الخرائط الحرارية 116260235 تحليل البيانات أسهل بكثير. ومع ذلك لديهم بعض القيود. 
لا تجمع خريطة الحرارة التقليدية الصفوف 10575 (والميزات كعإuخةء؟).‏ بدلاً من ذلك. فإن اتجاهه هو 
يمكن أن تكون الخرائط الحرارية المجمعة 16265725 dءإمtوuاC‏ خيارًا أفضل في مثل هذه الحالات. 
يقوم بتجميع الصفوف والميزات معًا لمساعدتك على فهم البيانات بشكل أفضل. 
يمكن أن تكون مفيدة بشكل خاص عند التعامل مع مجموعات البيانات الكبيرة..في حين أن خريطة الحرارة 
التقليدية ستكون شاقة بصريًا للنظر إليها. 


ومع ذلك فإن المجموعات الموجودةفي خريطة الحرارة المجمعة تجعل من السهل تصور أوجه التشابه 
وتحديد الصفوف (والميزات) التي تتوافق مع بعضها البعض. 
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لإنشاء خريطة حرارية مجمعة. يمكنك استخدام طريقة ()5115.11156611212 من 5210112. مزيد من 
المعلومات هنا: مستندات 62011 5. 


المقالة: 
https://avichawla.substack.com/p/the-limitations-of-heatmap-that-are‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Enrich-Heatmaps.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 129 


0) قيود ارتباط بيرسون الذي يتجاهلها كثيرون في كثير من 
الأحيان The Limitation Of Pearson Correlation Which‏ 
Many Often Ignore‏ 


Linear Data 


Non-linear Data 
قن‎ 
ا‎ 


يشيع استخدام ارتباط بيرسون 60016136002 263502 لتحديد الارتباط بين متغيرين مستمرين 
95 111110115 . لکن كثيرًا ما يتجاهل الكثيرون افتراضه. 


يقيس ارتباط بيرسون بشكل أساسى علاقة 1,1171381 بين متغيرين. نتيجة لذلك» حتى إذا كان هناك 
متغيرين لهما علاقة غير خطية ولكن رتيبة ©ع01غ12010» فإن بيرسون يعاقب على ذلك. 


أحد البدائل الرائعة هو ارتباط سبيرمان 0112002 621523م5. يقومفي المقام الأول بتقييم الرتابة 
20200117 بين متغیرین» قد يكونان خطيًا أو غير خطي. 
علاوة على ذلك: فإن ارتباط سبيرمان مفيد أيضًاني المواقف التي يتم فيها تصنيف بياناتك أو ترتييها. 
المقالة: 
https://avichawla.substack.com/p/the-limitation-of-pearson-correlation‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 


Science/blob/main/Statistics/Pearson-vs-Spearman.ipynb 
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1) لماذا ينصح عادة بوضع بذور للمولدات العشوائية؟ وط۷ 
Are We Typically Advised to Set Seeds for Random‏ 


7?Generators 


Input Data 


Transformation 
by neural nets 
of same 
structure 


من وقت لآخر نصحنا بتعيين البذور لأرقام عشوائية 1211516615 310012 قبل تدريب نموذج التعلم 

الآلي. إليكم السبب. 

يتم تهيئة وزن النموذج بشكل عشوائي. وبالتالي» فإن أي تجربة متكررة لا تولد أبدا نفس مجموعة الأرقام. 

هذا يمكن أن يعيق استنساخ النموذج الخاص بك. 

كما هو موضح أعلاه؛ يتم تحويل بيانات الإدخال نفسها بعدة طرق بواسطة شبكات عصبية مختلفة من 

وبالتالي» قبل تدريب أي نموذج» تأكد دائمًا من إعداد البذور بحيث يمكن تكرار تجربتك لاحقا. 
المقالة: 

https://avichawla.substack.com/p/why-are-we-typically-advised-to-set 

الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/ Why -Set-Seeds.ipynb 
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3 ف كم الان تكفاة بها تفن تضوزات السنانات 
الخاصة بك An Underrated Technique 'To Improve‏ 
Your Data Visualizations‏ 


Annotated Plot 


4 
+ 
Third Wave ry N 


Fourth Wave Fifth Wave 


في بعض الأحيان. قد يتطلب منك التأكد من أن مخططك ينقل الرسالة الصحيحة لتقديم سياق إضافي. 
ومع ذلك فإن زيادة المخططات الإضافية قد تؤدي إلى تشويش تصورك بالكامل. 


تتمثل إحدى الطرق الرائعة لتقديم معلومات إضافيةفي إضافة تعليقات توضيحية نصية )×ع) 
5 إلى المخطط. 


في ط10[1م212: يمكنك استخدام .annotat€)(‏ يضيف نصوصًا توضيحية إلى مخططك. مما يتبح 
لك توجيه انتباه المشاهد إلى مناطق محددة والمساعدةفي فهمه. 


يمكنك العثور على مزيد من المعلومات هنا: مستندات طMatplotli‏ . 
المقالة: 
https://avichawla.substack.com/p/an-underrated-technique-to-improve‏ 
الكود: 
https://github.com/ChawlaAvi/Daily-Dose-of-Data‏ 


Science/blob/main/Plotting/Text-annotations.ipynb 
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3) أداة بدون كود لإنشاء المخططات والجداول المحورية في 
A No-Code Tool to Create Charts and Pivot Jupyter‏ 
Tables in Jupyter‏ 


notebook.ipynb 


pivottablejs 
pivot_ui(df) 


pivot_ui 


[pop out] 


| Table v| [Count 


Employment_Status > 


Name > Employee_City > 


Employment_Status 
Full Time Intern Totals 
Employee_City 


Aliciafort 
Kristaburgh 
New Cindychester 
New Russellton 
North Melissafurt 
Ricardomouth 
Wardfort 
West Jamesview 
Whitakerbury 
Whiteside 


فيما يلي طريقة سريعة وسهلة لإنشاء جداول محورية 63165 ٤10م‏ ومخططات 01315 وبيانات مجمعة 


0 متاهتع دون كتابة أي تعليمات برمجية. 


كع Pivot‏ هي أداة سحب وإفلات لإنشاء جداول محورية ومخططات تفاعليةفي .Jupyter‏ علاوة 
على ذلك يمكنك أيضًا زيادة الجداول المحورية باستخدام الخرائط الحرارية 5م2622 لتحليل 


3 


محسن . 


Company_Name > 
Employee_Job_Title > 
Employee_Country > 
Employee_Salary > 


> وماغقه_ععلزمامممع 


يمكنك العثور على مزيد من المعلومات هنا: 261615 2157061. 


شاهد نسخة فيديو من هذا | لمنشور لفهم أفضل: الفيديو. 
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سم 
N‏ 


1۴ إذا لم تكن قادرا على برمجة نهج موجه. فجرب هذا.‎ )4 
You Are Not Able to Code a Vectorized Approach, 
.Try This 


df .shape pq avichawla.substack.com 
(100000, 9) 


1) 1 050 


$timeit [my_func(row) for index, row in df.iterrows()] 


2.63 s + 7.55 ms per loop Slowest 


2) apply) 


$timeit df .apply(my_func, axis = 1) 


3) itertuples() 


stimeit [my_func(row) for row in df.itertuples( ) ] 


4) to_numpy() 


$timeit np_Ãarr > df.to_numpy(); [my_func(row) for row in np_arr] 


32.9 ms + 240 ys per loop Fastest 


على الرغم من أنه لا ينبغي لنا أبد التكرار عبر إطار بيانات ونفضل الكود المتجه code‏ 57606011260 
ماذا لو لم نتمكن من التوصل إلى حل متجه solution‏ vectorized؟‏ 

"دعنا نقول فقط أنك مجبر على التكرار. ما هي أفضل طريقة للقيام بذلك؟ " 

أولاًء افهم أن السبب الرئيسي وراء بطء التكرار يرجع إلى الطريقة التي يتم بها تخزين إطار البياناتفي 
الذاكرة. (إذاكنت ترغبفي تلخيص هذاء فاقرأ منشوري السابق هنا.) 

نظرًا لكونه هيكل بيانات ذات عمود رئيسىء فإن استرداد صفوفه يتطلب الوصول إلى كتل غير متجاورة 
من الذاكرة. هذا يزيد من وقت التشغيل بشكل كبير. 

ومع ذلك. إذا كنت ترغبفي إجراء عمليات تعتمد على الصفوف فقطء. فإن الحل السريع هو تحويل إطار 
البيانات إلى مصفوفة 102111121197. 


134 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


تناكل أسرع هنا لأنه » افتراضيًاء يخزن البيانات بطريقة رئيسية. وبالتالي» يتم استرداد صفوفها عن 
طريق الوصول إلى كتل متجاورة من الذاكرةء مما يجعلها فعالةفي تكرار إطار البيانات. 


ومع ذلك لاحظ أن أفضل طريقة هي كتابة التعليمات البرمجية الموجهة دائمًا. استخدم منهج -22025 
0-1227 فقط عندما تكافح حقاني كتابة التعليمات البرمجية الموجهة .vectorized code‏ 


المقالة: 
https://avichawla.substack.com/p/if-you-are-not-able-to-code-a-vectorized‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Best- Way-to-Iterate-DataFrame.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 
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5) لماذا ينصح عادة بعدم التكرار مطلقا عبر إطار بيانات؟ 
Why Are We Typically Advised To Never Iterate Over‏ 
?A DataFrame‏ 


df.shape R avichawla.substack.com 


(32768000, 9) 


Access column 


$timeit df ] "my_column" ] 
1.73 us 2 546 ns per loop 

Column 
Access row access 


is over 
$timeit df.iloc[0] 20x faster 


38.4 us + 1.47 us per loop 


من وقت لآخر. ينصح بتجنب التکرار ع 1)۲٣‏ على 102621131226 das‏ ہPa.‏ لکن ما هو السبب الدقيق 

وراء ذلك؟ دعنى أشرح. 

يعد 1022112126 بنية بيانات ذات عمود رئيسي. وبالتالي» يتم تخزين العناصر المتتاليةفي عمود بجانب 

بعضها البعض في الذاكرة. 

نظرًا لأن المعالجات فعالة مع كتل متجاورة من الذاكرة. فإن استرداد عمود يكون أسرع بكثير من صف 

واحد. 

ولكن أثناء التكرار» حيث يتم استرداد كل صف عن طريق الوصول إلى كتل غير متجاورة من الذاكرة 

اد رت اکل يشكل کی 

في الصورة أعلاه. كان استرداد أكثر من 32 مليون عنصر من العمود أسرع 20 مرة من جلب تسعة عناصر 
المقالة: 

https://avichawla.substack.com/p/why-are-we-typically-advised-to-never 

الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data-Science/blob/main/Run- 
time%200ptimization/Never-Iterate- Over-Pandas.ipynb 
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6 قد يكون التلاعب بالكائنات القابلة للتغيير في لغة بايثون 
محيرا في بعض الأوقات م1 Manipulating Mutable Objects‏ 
Python Can Get Confusing At Times‏ 


Method1.pYy 


هل تعلم أنه مع الكائنات القابلة للتغيير sءعزطه‏ eاtabاص.‏ 5 ”+2 = 2“ and‏ ”=+ هھ“ بشكل 
مختلففي بايثون؟ إليكم السبب. 

لنفكرفي قائمة ناء على سبيل المثال. 

عندما نستخدم عامل التشغيل -. تنشئ بايثون كائتا جديدافي الذاكرة وتخصصه للمتغير. 


وبالتالي» لا تزال جميع المتغيرات الأخرى تشير إلى موقع الذاكرة السابقء والذي لم يتم تحديثه مطلقا. 
هذا موضحفي Method1.py‏ أعلاه. 


ولكن مع عامل التشغيل -+: يتم فرض التغييراتفي مكانها. هذا يعني أن بايثون لا تنشئ كائنًا جديدا ويتم 
تحديث موقع الذاكرة نفسه. 


وبالتالي» يمكن رؤية التغييرات من خلال جميع المتغيرات الأخرى التي تشير إلى نفس الموقع. هذا 
موضحفي Method2 .py‏ أعلاه. 
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يمكننا أيضًا التحقق من ذلك من خلال مقارنة 140 التعيين المسبق 6عدتتمج26-2551م والتعيين 
اللاحق .post-assign ment‏ 


Method1.py 


Method2.py 


id(a), id(b) 


id(a), id(b) 
5 12345) 


باستخدام “a=a+”‏ يتم تغيير id‏ مما يشير إلى أن Python‏ قد أنشأت كاثنًا جديد. ومع ذلك مع 
”<+ ه“. تظل 14 كما هي. يشير هذا إلى أنه تم تحديث نفس موقع الذاكرة. 
المقالة: 
https://avichawla.substack.com/p/manipulating-mutable-objects-in-python‏ 


الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Modifying-Mutable-Object.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 
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7) يمكن لهذا التعديل الصغير أن يعزز بشكل كبير من وقت 
تشغيل This Small Tweak Can Significantly KMeans‏ 
Boost The Run-time of KMeans‏ 


avichawla.substack.com 


KMeans Clustering 


Incorrect 
clusters 
with KMeans 


KMeans++ Clustering 


Correct ا‎ 


٠ ° e 0 5 


1 
clusters ° ٠ 
with KMeans++ 


5595 عبارة عن خوارزمية تجميعية شائعة 21801322 ع112ء]1115ه ولكنها عالية التشغيل. إليك 
كيف يمكن لتعديل صغير تحسين وقت تشغيله بشكل ملحوظ. 

يختار 152625 النقط الوسطى 6060145ت الأولية بشكل عشوائي. نتيجة لذلك. فشلفي التقارب 
»ه0127 في بعض الأحيان. هذا يتطلب منا تكرار التجميع عدة مرات مع تهيئة مختلفة. 

بدلا من ذلك» يتخذ ++152/62::5 نهجًا أكثر ذكاءً لتهيئة النقط الوسطى. يتم اختيار النقطة الوسطى الأول 
عشوائيا. ولكن يتم اختيار النقطة الوسطى التالية على أساس المسافة من النقطة الوسطى الأول. 

بعبارة أخرى» من المرجح أن يتم تحديد النقطة البعيدة عن النقطة الوسطى الأولى كنقطة مركزية أولية. 
بهذه الطريقةء من المحتمل أن تقع جميع النقط الوسطى الأوليةفي مجموعات مختلفة بالفعل وقد تتقارب 
الخوارزمية بشكل أسرع. 


يوضح الرسم التوضيحي أدناه تهيئة النقطه الوسطى ل ++163725/ال15: 
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avichawla.substack.com 


Initial Centroid 1 Initial Centroid 2 


“oo 
علد ؟‎ 


المقالة: 
https://avichawla.substack.com/p/this-small-tweak-can-significantly‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/Boost-KMeans-Run-time.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 140 


8) معظم مبرمجي بايئون لا يعرفون هذا عن البرمجة كائنية 
التوجه في بايتون Most Python Programmers Dont‏ 
Know This About Python OOP‏ 


© © 76 avichawla.substack.com 


class 1220: 
def Mew (CLS, كا‎ VD 


e(x, int) and isinstance(y, int): 


only when the if-co 
print ("Creating Objec 
return super().__new__(cls) # Return new object 
else: 
raise TypeError("x and لا‎ must be integers") 


init (Self, ع‎ VS 

self.X = X 

self.y = لا‎ 

print ("Object Initialized!") 


>>> 01 = 202062014 2) 
"Ccreatins Object!" 
"Object Initialized!" # 


>>> P2 E POEMS 25) 
TypeError: x and لا‎ must be integers 


يسيء معظم مبرمجي بايثون فهم طريقة ()_11216_. يعتقدون أنه يخلق كائنًا جديدا. لكن ذلك غير صحيح. 


عندما نقوم بإنشاء كائن» فإن طريقة ()_816ؤ_ ليست هي التي تخصص الذاكرة له. كما يوحي الاسم 
تقوم ()_٤11ة_‏ بتعيين قيمة لسمات الكائن فقط. 

بدلا من ذلك تستدعى بايثون الطريقة ()_1226388_أولاً لإنشاء كائن جديد وتخصيص الذاكرة له. ولكن 
ما مدى فائدة ذلك, قد تتساءل؟ هناك العديد من الأسباب. 


على سبيل المثال» من خلال تنفيذ طريقة ()_ا22©1_ . يمكنك تطبيق فحوصات البيانات وكآ[ععطاء 0268. 
هذا يضمن أن برنامجك يخصص الذاكرة فقط عند استيفاء شروط معينة. 
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تتضمن حالاات الاستخدام الشائعة الأخرى تحديد الفئات الفردية 5ع1255© 512816602 (الفئات التى 
تحتوي على كائن واحد فقط). وإنشاء فئات فرعية من الفتات غير القابلة للتغيير 5ع1255ء 11211111162116 
مثل المجموعات. وما إلى ذلك. 
المقالة: 
https://avichawla.substack.com/p/most-python-programmers-dont-know-b55‏ 
الكود: 
https://github.com/ChawlaAvi/Daily-Dose-of-Data‏ 


Science/blob/main/Python/ init -and- new -method.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 12 


9) من قال إن طثه1م143 لا يمكنه إنشاء مخططات 
تفاعلية؟ Who Said Matplotlib Cannot Create‏ 


?Interactive Plots 


7 + 3 
Evaluate x + 20*np.sin(x) 


يُرجى مشاهدة نسخة فيديو من هذا المنشور لفهم أفضل: رابط الفيديو. 


في معظم الحالات. يتم استخدام 2/26510[15 لإنشاء مخططات ثابتة. لكن قلة قليلة من الناس يعرفون 
أنه يمكنه إنشاء مخططات تفاعلية أيضًا. إليك الطريقة. 

بشكل افتراضي. يستخدم آ10[1م]1/12 الوضع 11211126 . والذي يعرض المخططات الثابتة. ومع ذلك 
باستخدام الأمر السحري 10/104866 ط1اotاtpخma%.‏ يمكنك تمكين الواجهة الخلفية التفاعلية 
لمخططات .Matplotlib‏ 

علاوة على ذلك تحتوي الوحدة النمطية 107108685 على العديد من عناصر واجهة المستخدم المفيدة. 
يمكنك دمجها مع المخططات الخاصة بك لجعلها أكثر أناقة. 


اعثر على دليل مفصل هنا: أدوات ط3اغ10م2/136. 
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المقالة: 
https://avichawla.substack.com/p/who-said-matplotlib-cannot-create‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Interactive-Matplotlib.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 144 


0) لا تقم بإنشاء مخططات شريطية فوضوية. بدلا من ذلك, 
جرب المخططات الفقاعية! Don't Create Messy Bar Plots.‏ 
!Instead, Try Bubble Charts‏ 


98 


mnnnnunnunnnnnnnn? 
3 


ا BX.bBar (df,‏ 
| غ ||| انرأ ا( px.scatter(df,‏ 
۴ | ا اا 


Country A 
Country 8 
Country C 
Country D 
Country E 
Country F 
Country G 
Country H 
Country I 
Country J 
Country K 
Country L 
Country M 
Country N 
Country O 
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غالبًا ما تصبح المخططات الشريطية 1065م ة8 غير مفهومة وفوضوية عندما يكون لدينا العديد من 


يمكن أن يكون المخطط الفقاعى ٤إ2طء‏ اطنط خيارًا أفض لني مثل هذه الحالات. إنها مثل مخططات 
التشت“ scatter plots‏ ولكن مع محور فئوي categorical‏ واحد وآخر مستمر 60116112110115. 


بالمقارنة مع المخطط الشريطي» فهي أقل تشوشًا ولديها فهم أفضل. 
بالطبع؛ يعتمد اختيار المخططفي نهاية المطاف على طبيعة البيانات والأفكار المحددة التي ترغبفي نقلها. 


ما هو المخطط التي تفضله عادةفي مثل هذه المواقف؟ 
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المقالة: 
https://avichawla.substack.com/p/dont-create-messy- bar-plots-instead‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Bubble-Charts.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 146 


You يمكنك إضافة قائمة كمفتاح قاموس (فنياً)! مدن‎ )1 
!Add a List As a 101660022195 Key (Technically) 


my_dict {} unhashable 
my_list 21ر1,2]‎ list 


my_dict [my_list] 


: unhashable type: ' 


my_list MyList([1,2,3 


my_dict[my_list] 


print (my_dict) 


3]: True} 


تثير بايثون خطأ عندما نضيف قائمة 1156 كمفتاح قاموس رع 0101022175. لكن هل تعرف السبب 
الغنى وراء ذلك؟ ها أنت ذا. 

أولاً. افهم ان کل شي ءفي بايثون هو كائن تم إنشاء مثيل له من فئة ما. عندما نضيف كائنًا كمفتاح قاموس» 
تستدعي بايثون الدالة 12351 لفئة ذلك الكائن. 

بينما تطبق فئات غ126 و 5615 و ©1م61 و غ12026256 وما إلى ذلك الطريقة طئجط. فإنها مفقودة من فئة 
القائمة. هذا هو السببفي أننا لا نستطيع إضافة قائمة كمفتاح القاموس. 

وبالتالي؛ من الناحية الفنية» إذا قمنا بتوسيع فئة القائمة وإضافة هذه الطريقة» يمكن إضافة قائمة كمفتاح 
القاموس. 


على الرغم من أن هذا يجعل القائمة قابلة للتجزئة 16ط02512 إلا أنه لا يوصى بها لأنه قد يؤدي إلى سلوك 
غير متوقعفي التعليمات البرمجية الخاصة بك. 
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المقالة: 
https://avichawla.substack.com/p/you-can-add-a-list-as-a-dictionarys‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Python-List-As-Dict-Key.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 148 


2) غالبا ما يهمل معظم مستخدمي التعلم الآلي هذا أثناء 
استخدام الانحدار الخطي Most ML Folks Often Neglect‏ 
This While Using Linear Regression‏ 


Heteroscedasticity 
Regression fit 


Non-constant 
residual 
ELLE: 


Homoscedasticity 


Regression fit 


Constant 
residual 
variance 


يتم تحديد فعالية نموذج الانحدار الخطي 768756551012 112621 بمدى توافق البيانات مع الافتراضات 
الأساسية للخوارزمية. 

من الافتراضات المهمة للغاية. والتي غالبا ما يتم تجاهلها للانحدار الخطي. التجانس 
.homoscedasticity‏ 

تعتبر مجموعة البيانات متجانسة 101220506025600 الشكل إذا ظل تباين القيم المتبقية (- المتوقع 
الفعلى) كما هو عبر نطاق الإدخال. 

فى المقابل» تكون مجموعة البيانات غير متجانسة 116661056602563 إذا كانت البقايا لها تباين غير ثابت. 
تعتبر Homoscedasticity‏ في غاية الأهمية للانحدار الخطى. هذا لأنه يضمن أن معاملات الانحدار لدينا 
موثوقة. علاوة على ذلك يمكننا أن نثقفي أن التنبؤات ستبقى دائمّافي نفس فترة الثقة ععع ۴1١0ء‏ 


.interval 
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المقالة: 
https://avichawla.substack.com/p/most-ml-folks-often-neglect-this‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data- 
Science/blob/main/Machine%20Learning/Linear-Regression- 
Assumption.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 150 


3 35 مكتبة بايثون مخفية تعتبر جواهر مطلقة 35 ص11:06 
Python Libraries That Are Absolute Gems‏ 


35 Gem Python 
y Libraries م‎ 


Waiting To Be 
Discovered 


لقد راجعت أكثر من 1000 مكتبة بايثون واكتشفت هذه الجواهر الخفية التي لم أكن أعرف بوجودها من 
إليك بعضًا منها ستجعلك تقعفني حب بايثون وتعدد استخداماتها (حتى أكثر). 
اقرأ هذه القائمة الكاملة هنا: 
.https://avichawla.substack.com/p/35-gem-py-libs‏ 
المقالة: 
https://avichawla.substack.com/p/35-gem-py-libs‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Documents/35-cool-libs.ipynb 
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64) استخدم المخططات الصندوقية بحذر! قد تكون مضللة. 
Use Box Plots With Caution! They May Be‏ 
.Misleading‏ 


Identical Box Plots for Different Datasets 


Dataset A Dataset B Dataset C 


Hr 


Violin Plot 


8 
چ4 
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المخططات الصندوقية 1085م ×80 شائعة جدافي تحليل البيانات. لكنها يمكن أن تكون مضللةفي بعض 
الأحيان. إليكم السبب. 

المخطط الصندوقي هو تمثيل رسومي لخمسة أرقام فقط 57 دقيقة» ورج ربع أول» ومتوسط. ورج ثالث» 
وأقصى حد. 

وبالتالي» فإن مجموعتي بيانات مختلفتين لهما قيم خماسية متشابهة ستنتجان مخططات صندوقية 
متطابقة. هذاءفي بعض الأحيانء يمكن أن يكون مضللاً ويمكن للمرء أن يستخلص استنتاجات خاطتة. 
القصد ليس أنه لا ينبغي استخدام المخططات الصندوقية. بدلاً من ذلك» انظر إلى التوزيع الأساسي أيضا. 
هناء يمكن أن تساعد المدرجات التكرارية وصةإع وط ومخططات الكمان وهام طنآه210. 

أخيراء تذكر دائمًا أنه عندما تقوم بتكثيف مجموعة البيانات» فإنك لا ترى الصورة كاملة. أنت تفقد 
المعلومات الأساسية. 
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المقالة: 
https://avichawla.substack.com/p/use-box-plots-with-caution-they-may‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Box-Plots- Are-Misleading.ipynb 
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م 
01 


| . لات بيانات أذ‎ ١ . تقنية تم الا تخفاف بها لإنشاء‎ )5 
An Underrated Technique T'o Create Better Data Plots 


أثناء إنشاء التصورات 9 غالبًا ما تكون هناك أجزاء معينة ذات أهمية خاصة. ومع ذلك 
قد لا تكون واضحة للمشاهد على الفور. 
سيضمن راوي البيانات الجيد دائمًا أن المخطط يوجه انتباه المشاهد إلى هذه المجالات الرئيسية. 
تتمثل إحدى الطرق الرائعةفي تكبير مناطق محددة ذات أهميةفي المخطط. هذا يضمن أن مخططنا تنقل 
بالفعل ما نعتزم تصويره. 
في ibاotاmatp.‏ يمكنك القيام بذلك باستخدام ()120163266_12566_200112. يضيف مربع مؤشر 
يمكن تكبيره لتحسين الاتصال. 
يمكنك العثور على مزيد من المعلومات هنا: مستندات طMatplotli.‏ 
المقالة: 
https: //avichawla.substack.com/p/an-underrated-technique-to-create‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Better-Storytelling.ipynb 
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6) اضافة إطار بيانات 222425 الذي ينتظرها كل عالم بيانات 
The Pandas DataFrame Extension Every Data Scientist‏ 
Has Been Waiting For‏ 


PyGWalker 


Turn your pandas dataframe into a Tableau-style User Interface 
for visual analysis 


© © © Konaries/pygwalker 


شاهد نسخة فيديو من هذا المنشور لفهم أفضل: رابط الفيديو. 
Py 6G Waker‏ هو بديل مفتوح المصدر ل uدء1طة‏ 1 يحول إطار بيانات 2320235 إلى واجهة مستخدم 
على غرار لوحة لاستكشاف البيانات. 


يوفر واجهة مستخدم تشبه 12616211'في إeا‏ رمال مما يسمح لك بتحليل البيانات بشكل أسرع وبدون 
كود. 


يمكنك العثور على مزيد من المعلومات هنا: .PyG Walker‏ 
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Supercharge Xonsh مع بايئون باستخدام‎ Shell عزز‎ (67 
Shell With Python Using Xonsh 


1chaWwia.suDstaCK.COIN 


Run shell commands Use Python 


5 Cat file. txt ۷ $ import pandas as pd 


5 cd Desktop ۷ 5 01-1151 = [1,221 


'110' + 'هط' - تون 5 : (5) 123056 1 


(i) 0 $ echo a(var) grep "11" 8‏ 
الشل التقليدية [[ع 5 1120110121 ' لها قيود على مستخدمي بايثون.في وقت واحد. يمكن للمستخدمين 
إما تشغيل أوامر [[عط: أو استخدام جه طyt٥1.‏ 


نتيجة لذلك. يتعين على المرء أن يفتح عدة ترمينال كلمع أو التبديل ذهابًا وإيابًا بينهمافي نفس 
الجهاز. 


بدلا من ذلك جرب 32051. فهو يجمع بين سهولة الشل التقليدي وقوة بايثون. وبالتالي» يمكنك 
استخدام بناء جملة بايثون وكذلك تشغيل أوامر 11 وني نفس الشل. 


يمكنك العثور على مزيد من المعلومات هنا: تأكدده)2. 
المقالة: 
https://avichawla.substack.com/p/supercharge-shell-with-python-using‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Coo0l%20T'ools/Supercharge-Shell.ipynb 
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8) لا يعرف معظم مستخدمي سطر الأوامر هذه الحيلة الرائعة 
حول استخدام الترمينال 175625 Most Command-line‏ 
Don't Know 'This Cool Trick About Using Terminals‏ 


Terminal 
Blocked 


ba Jython test_script.py & 
هط‎ 25 
| 

00 Terminal 


Free 


شاهد نسخة فيديو من هذا المنشور لفهم أفضل: رابط الفيديو. 


بعد تشغيل أمر 21ہ صهء(أو سكريبت 5015106 وما إلى ذلك)». يفتح معظم مستخدمي سطر الأوامر 
ترمينال 2121 جديدة لتشغيل أوامر أخرى. لكن هذا ليس مطلوباً أبداً. إليك الطريقة. 


عندما نقوم بتشغيل برنامج من سطر الأوامر, فإنه يعمل بشكل افتراضيفي المقدمة. هذا يعني أنه لا يمكنك 
استخدام الترمينال حتى يكتمل البرنامج. 

ومع ذلك إذا قمت بإضافة '& "في نهاية الأمر. فسيتم تشغيل البرنامجفي الخلفية وتحرير الترمينال على 
الفور. 


بهذه الطريقةء يمكنك استخدام نفس الترمينال لتشغيل أمر آخر. لإعادة البرنامج إلى المقدمة» استخدم 
الأمر "ع" 


المقالة: 
https://avichawla.substack.com/p/most-command-line-users-dont-know‏ 
الكود: 

https://github.com/ChawlaAvi/Daily-Dose-of-Data 


Science/blob/main/Terminal/Free-Terminal.ipynb 
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e. 58 1 58 ١ 1 58 | 1 (69‏ 1 58 أ | e o‏ ادة من الجداول 
المحورية في A Simple Trick to Make The Most Pandas‏ 
Out of Pivot Tables in Pandas‏ 


Location Bombay Dubai London Moscow Munich New York Sydney Tokyo 


2 
19 


Google 


IBM 


> 
3 
3 
ع 
6 
0 


Microsoft - 
Uber - 


١ 
e 

کي کي کې 

اي کہ کې ګګ 


Location 


تعد الجداول المحورية Pivot tables‏ شائعة جد لاستكشاف البيانات .data exploration‏ ومع ذلك 
فإن تحليل النتائج أمر شاق وصعب. علاوة على ذلك قد يفوت المرء بعض الأفكار المهمة حول البيانات. 


بدلاً من ذلك» قم بإثراء الجداول المحورية بخرائط الحرارة 5م1262622. تسهل ترميزات الألوان color‏ 
22085 تحليل البيانات وتحديد الأنماط. 


المقالة: 
https://avichawla.substack.com/p/a-simple-trick-to-make-the-most-out‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Enrich- Pivot-T'able.ipynb 
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0) لماذا لا تقدم بايثون تغليف برمجة كائثنية التوجه حقيقي 
Why Python Does Not Offer True OOP‏ 
Encapsulation‏ 


avichawla.substack.com 


(self): 
public_attr "Tw PUBLIC" 
self ._protected_attr "T'm protected" 
elf .__private_attr "T'm private" 


my_obj "1201355 )( 


my_obj.public_attr 
"T'm public" 


my_obj._protected_attr 
"T'm protected" 


my_obj._MyClass__private_attr 8 Private member 
"I'm private” accessible with 
name mangling 


يعد استخدام أدوات تعديل الوصول 7220016615 ووعءعع2 (العامة عنآطتام والمحمية protected‏ 
والخاصة 011266) أمرًا أساسيًا للتغليف 0251112610 2ع في 00۶. ومع ذلك فشلت بايثون بطريقة 
بالتعريف» يمكن الوصول إلى العضو العام ني كل مكان. لا يمكن الوصول إلى عضو خاص إلا داخل الفئة 
الأساسية. يمكن الوصول إلى العضو المحمى داخل الفئة الأساسية والفئة (الفتات) الفرعية. 

لكن مع بايثون. لا توجد مثل هذه الإجراءات الصارمة. 


وبالتالي» فإن الأعضاء المحميين يتصرفون تمامًا مثل الأعضاء العامين. علاوة على ذلك يمكن الوصول 
ال الأعضاء الخاصين خارج الفئة باستخدام تشويه الأسماء .name mangling‏ 


159 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


کمبرمج» تذكر أن التغليففي بايثون يعتمد بشكل أساسي على الاصطلاحات كص0ناممرمهء. وبالتالي؛ 
تقع على عاتق المبرمج مسؤولية متابعتها. 
المقالة: 
https://avichawla.substack.com/p/why-python-does-not-offer-true-oop‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Python- Access-Modifiers.ipynb 
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1) لا تقلق أبدًا بشأن تحليل الأخطاء مرة أخرى أثناء قراءة ملف 
CSV‏ باستخدام Pandas Never Worry About Parsing‏ 
Errors Again While Reading CSV with Pandas‏ 


!cat file.csv 


Name, Amount 
Alice, $300 Separator appears 


Bob, $1\, 000 in value 
Charlie, $200 


pd.read_csv("file.csv") 


import clevercsv 


clevercsv.read_dataframe("file.csv") 


Name Amount 


0 Alice $300 


1 Bob $1,000 
2 Charlie $200 Fî avichawla.substack.com 


25 ليست ذكية (حتى الآن) لقراءة ملفات 0557 الفوضوية. 


تفترض طريقة بو 2620 أن مصدر البيانات بتنسيق جدولي 1011126 هان طه) قياسي. وبالتالي. فإن أي 
مخالفةفي البيانات تؤدي إلى أخطاءفي التحليلء والتي قد تتطلب تدخلًا يدويًا. 


بدلا من ذلك. جرب 016760517©. يكتشف تنسيق ملفات 0577© ويسهل تحميلهاء مما يوفر لك الكثير 
من الوقت. 
يمكنك العثور على مزيد من المعلومات هنا: 0165761200557 . 
المقالة: 
https://avichawla.substack.com/p/never-worry-about-parsing-errors‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Messy- CSV -read.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 161 


2) طريقة مثيرة للاهتمام وغير معروفة لإنشاء مخططات 
باستخدام Pandas An Interesting and Lesser-Known‏ 
Way To Create Plots Using Pandas‏ 


from base64 import b64encode 5 
from مذ‎ import BytesIO ê avichawla.substack.com 


def create_hist (data): 
fig, ax = plt.subplots(figsize=(2, 0.5(( 
ax.hist (data, bins=10) 
ax.axis( 'off') 
plt.close(fig) 


img = BytesI1O0() # create Bytes Object 

fig.savefig(img) # Save Image to Bytes Object 

encoded = b64encode(img.getvalue()) # Encode object as baseé64 byte string 
decoded = encoded.decode( 'utf-8' ) # Decode to utf-8 

return f'<img src="data:png; base64, {decoded}">' # Return HTML tag 


df( 'Last 7 Days'] = ]عل‎ 'Price History’ ] .apply (create_line) 
]عه‎ 'Trade Volume'] = ]عل‎ 'Price History’ ].apply (create_hist) 


HTML (df .to_html (escape=False) ) 


عندما تقوم بطباعة / عرض إطار بيانات 33۴ف te‏ رطا[ يتم تقديمه باستخدام 1111/1 و 
5. يتيح لنا ذلك تنسيق الإخراج تمامًا مثل أي صفحة ويب أخرى. 
في مقتطف الكود أعلاه نقوم أولاً بإنشاء مخطط كما نفعل عادة. بعد ذلك نعيد علامة .117120/1 
<8> بمصدرها كمخطط. أخيرًاء نقدم إطار البيانات بتنسيق 111 . 
المقالة: 
https://avichawla.substack.com/p/inline- 0105-5‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Inline-DF-Plots.ipynb 
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Most يعرف معظم مبرمجي بايثون هذا عن حلقات-101‎ 3 
Python Programmers Don't Know ‘This About Python 


For-loops 


num range (5) : 
print (f"num = {num}") 
num 10 


num 
num 
num 
num 


num 


avichawla.substack. com 


غالبًا عندما نستخدم حلقة ٥۲-1٥٥‏ في بايثون» فإننا لا نميل إلى تعديل متغير الحلقة داخل الحلقة. 
يأتي الدافع عادة من التعرف على لغات البرمجة الأخرى مثل ++0 و1204. 
لكن حلقات :10 لا تعمل بهذه الطريقةفي بايثون. تعديل متغير الحلقة ليس له تأثير على التكرار. 


هذا لأنه. قبل كل تكرارء تقوم بايثون بفك حزم العنصر التالي الذي يوفره قابل للتكرار ((12586)5) 
وتخصيصه لمتغير الحلقة (1211111). 


وبالتالي» يتم استبدال أي تغييراتفي متغير الحلقة بالقيمة الجديدة القادمة من المتغير القابل للتكرار. 
المقالة: 

https://avichawla.substack.com/p/most-python-programmers-dont-know 
الكود:‎ 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Lesser-Known-For-Loop-Tip-Python.ipynb 
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4) كيفية تفعيل التحميل الزائد للدوال في بايثون 10' +510 
Enable Function Overloading In Python‏ 


add(x:int, 
n xX 
python inte ۲ ter add(x:1nt, Vint, 1 
only considers the return Xx + لا‎ + z 
latest definition 
add(1,2) 
of add() function TypeError: add() missing 1 


required positional argument: 'z' 


multipledispatch dispatch 


adispatch(int, int) 
add(xX, ¥): 
× 


adispatch(int, 
add(x, 


dispatch decorator 


add(1,2,3) 
enables function 
overloading 
لا يوجد دعم أصلى للبايثون للتحميل الزائد على الدوال 07110203528 «تاءصد. ومع ذلك هناك‎ 
حل سريع لها.‎ 


يعد التحميل الزائد للدالة (وجود دوال متعددة بنفس الاسم ولكن عدد / نوع مختلف من المعلمات) أحد 
الأفكار الأساسية وراء تعدد الأشكال 17 و البرمجة كائنية التوجه 0007. 


ولكن إذا كان لديك العديد من الدوال بنفس الاسم فإن بايثون لا تأخذفي الاعتبار سوى أحدث تعريف. 
هذا يقيد كتابة كود متعدد الأشكال. 


على الرغم من هذا القيد. يسمح لك مصمم الإرسال بالاستفادة من التحميل الزائد للدالة. 


يمكنك العثور على مزيد من المعلومات هنا: .Multipledispatch‏ 
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المقالة: 
https://avichawla.substack.com/p/how-to-enable-function-overloading‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Function-Overloading.ipynb 
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5) قم بانشاء تلميحات مفيدة أثناء كتابة كود 5ه0طهةط 
الخاص بك Generate Helpful Hints As You Write Your‏ 
Pandas Code‏ 


import dovpanda 76 avichawla.substack.com 


iter_df = df.iterrows() 


© df.iterrows is not recommended. Essentially it is very similar to iterating the rows of 
سد‎ the frames in a loop. In the majority of cases, there are better alternatives that utilize 
pandas' vector operation x 
Line 1: iter_df = df.iterrows() 


02 ] "new_col"] = df.apply (apply_func) 


© df.apply is not recommended. Essentially it is very similar to iterating the rows of the 

frames in a loop. In the majority of cases, there are better alternatives that utilize‏ سد 
pandas' vector operation 4‏ 
Line 1: df[ "new_co1"] = df.apply(apply_func)‏ 


merged_df = pd.concat((df, df)) 


All dataframes have the same columns and same number of rows. Pay attention, your 
axis is 0 which concatenates vertically x 
Line 1: merged_df = pd.concat( (df, df)) 


2 


© After concatenation you have duplicated indices - pay attention 
2 


Line 1: merged_df = pd.concat( (df, df)) 


عند معالجة إطار البيانات ۴١۲٤هل‏ في بعض الأحيان قد يستخدم المرء طرقا غير محسنة. علاوة على 
ذلك يمكن أن تمر الأخطاء التي يتم إدخالهاني البيانات بسهولة دون أن يلاحظها أحد. 

للحصول على تلميحات 111265 وتوجيهات 01661025 حول بياناتك / كودك. جرب 100572311202]. إنه 
يعمل كرفيق لكود 23025 الخاص بك. نتيجة لذلك فإنه يقدم اقتراحات / تحذيرات حول خطوات 
معالجة البيانات الخاصة بك. 

ملاحظة: عندما تقوم باستيراد 2202م1007. من المحتمل أن تحصل على خطأ. تجاهله واستمرفي 
استخدام 1221025. ستستمرفي تلقي اقتراحات من 10077821102. 


يمكنك العثور على مزيد من المعلومات هنا: 100570212025. 
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المقالة: 
https://avichawla.substack.com/p/generate-helpful-hints-as-you-write‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Generate-Pandas-Hints.ipynb 
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Speedup Bottleneck مرة مع‎ 25 NumPy طرق تسريع‎ (76 
NumPy Methods 25x With Bottleneck 


bottleneck bn 


numpy np 


arr np.random. random ( (1000, ( 


» numpy.py bottleneck.py 


np.sum(arr) bn.nansum( arr) 


np.mean (arr) bn.nanmean (arr) 


np.std(arr) bn.nanstd(arr) 


np.median (arr) مط‎ . 5317160131 (arr) 


np.max (arr) bn.nanmax (arr) 


تم بالفعل تحسين طرق 17111219 بشكل كبير للأداء. نعم» إليك كيفية زيادة تسريعها. 


يوفر >1[عع162]+1801 مجموعة من التطبيقات المحسنة لطرق 57 1[1111212. 


يعتبر Bottleneck‏ فعالاً بشكل خاص للمصفوفات ذات قيم NaN‏ حيث يمكن أن يصل تعزيز الأداء 
إلى 120-100 مرة. 
يمكنك العثور على مزيد من المعلومات هنا: ع[ع6 80166162 . 
المقالة: 
https://github.com/ChawlaAvi/Daily-Dose-of-Data‏ 
Science/blob/main/Speedup-NumPy-with-Bottleneck‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/NumPy/Speedup-NumPy-with-Bottleneck.ipynb 
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Visualizing تصور تحول البيانات لشبكة عصبية عط!'‎ )7 
Data ‘Transformation of a Neural Network 


Transfo ata 


إذا كنت تعاني لفهم كيف تتعلم الشبكة العصبية 12665011 1211121 البيانات المعقدة غير الخطيةء فقد 
صنعت انيميشن سيساعدك بالتأكيد. 


يُرجى مشاهدة الفيديو هنا: الرسوم المتحركة للشبكة العصبية. 


بالنسبة للبيانات غير القابلة للفصل خطيًا 0262 22216معكطة 25[77عضتلء تتلخص المهمةفي إسقاط 
البيانات على مساحة حيث تصبح قابلة للفصل خطيًا. 

الآنء إما يمكنك القيام بذلك يدويًا عن طريق إضافة الميزات ذات الصلة التي ستحول بياناتك إلى نموذج 
خطي قابل للفصل. ضعفي اعتبارك الدوائر متحدة المركز على سبيل المثال. تمرير مربع إحداثيات (97,:*) 
كميزة ستؤدي هذه المهمة. 

لكنفي معظم الحالات» يكون التحول 6254013260052 غير معروف أو معقدً. وبالتالي» تعتبر دوال 
التنشيط غير الخطية non-linear activation functions‏ هي أفضل رهان» ويسمح للشبكة العصبية 
باكتشاف هذا "التحويل غير الخطى إلى الخطى" بمفردها. 

كما هو موضحني الانيميشن» إذا قمنا بتعديل الشبكة العصبية عن طريق إضافة طبقة ثنائية الأبعاد قبل 
الإخراج مباشرة. وتصور هذا التحولء. فإننا نرى أن الشبكة العصبية قد تعلمت فصل البيانات خطيًا. نضيف 
طبقة ثنائية الأبعاد لأنه من السهل تصورها. 


169 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


يمكن بسهولة تصنيف هذه البيانات القابلة للفصل خطيًا حسب الطبقة الأخيرة. بعبارة أخرى» تكون الطبقة 
الأخيرة مماثلة لنموذج الانحدار اللوجستي regression‏ isticعا‏ الذي يُعطى مدخلات خطية قابلة 
للفصل. 
المقالة: 
https://avichawla.substack.com/p/visualizing-the-data-transformation‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Animations/Neural-Network- Visualization.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 170 


8) لا تقم أبدا باعادة بناء كودك يدويًا مرة أخرى. بدلا من ذلك 
الستخدم Never Refactor Your Code !Sourcery‏ 


!Manually Again. Instead, Use Sourcery 


© © مقع‎ my_code.py 


def is_special_number (number) : 
32 1016313 HH 7 
return True 
elif number = 18: 
return True 
else: 
return False 


© © Command Line 


5 sourcery review --in-place my_code.py 


© © مع‎ my_code.py 


def is_special_number (number) : 
return number in [7, 18] 


in wla 
كود إعادة البناء 116426601108 هو خطوة مهمةفي تطوير خط الأنابيب. ومع ذلك. فإن إعادة الهيكلة‎ 
بدلاً من ذلك» استخدم وء ٣ناه؟. إنها أداة إعادة هيكلة آلية تجعل التعليمات البرمجية الخاصة بك أنيقة‎ 
روا اق لمع ال‎ 

باستخدام .S0urcery‏ يمكنك إعادة بناء الكود من سطر الأوامن كمکون إضافي ل 1(۴ ع000 175 
وتصعطط )رو والتنفيذ المسبق» وما إلى ذلك. 


171 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


العثور على مزيد من المعلومات هنا: .Sour cey‏ 
المقالة: 
https://avichawla.substack.com/p/never-refactor-your-code-manually‏ 
الكود: 
https://github.com/ChawlaAvi/Daily-Dose-of-Data‏ 


Science/blob/main/Terminal/Code-refactoring.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 172 


Draw 'The Data ارسم البيانات التي تبحث عنها في ثوان‎ )9 
You Are Looking For In Seconds 


In [2]: from drawdata import draw_scatter 
draw_scatter() 


Out[2]: 


reset copyjson copycesv download json downloadcsv OA O8 @C OD 


يُرجى مشاهدة نسخة فيديو من هذا المنشور لفهم أفضل: رابط الفيديو. 
في كثير من الأحيان, عندما تريد بيانات ذات شكل معين» فإن إنشائها برمجيًا يمكن أن يكون مهمة شاقة 
وتستغرق وقتا طويلاً. 
بدلاً من ذلك استخدم 0271262. يتيح لك ذلك رسم أي مجموعة بيانات ثنائية الأبعادفي نوتبوك 
وتصديرها. إلى جانب مخطط التبعثر 10م 502665. يمكنه أيضًا إنشاء رسم بياني 1560222[ ورسم 
خطي اهام عصنا. 
يمكنك العثور على مزيد من المعلومات هنا: 1012355:0262. 
المقالة: 
https://avichawla.substack.com/p/draw -the-data-you-are-looking-for‏ 
الكود: 


https: //github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Jupyterf%20Tips/Draw-Data.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


0) نمط مخططات طتله1م112 لجعلها أكثر جاذبية ع5671 
Make Them More Attractive‏ ه'1' Matplotlib Plots‏ 


in linkedin,com/in/avi-chawla 


Select from 
all_styles 


Solarize_Light2 
22° e 
ه "وه‎ ° ٠ 
0 


fvethirtyeight 
Bh Pk 


E] 8 

دا ا :. $ 

-05 00 05 1.0 0 5 1 -1.0 -05 00 0.5 10 
320 nat seaborm-whtegrld 


16 
كع 58 


1 كه مه وم 6د 


يحتوي اذ10م2/12 تقريباً على 50 نمطا و5616 مختلفًا لتخصيص مظهر المخطط. 


لتغيير نمط المخطط حدد نمطًا من ©16.563:16.29/21181م وأنشئ المخطط كما كنت تفعلفي الأصل. 
تعرف على مزيد من المعلومات حول التصميم هنا؛ المستندات. 
المقالة: 
https://avichawla.substack.com/p/style-matplotlib-plots-to-make-them‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Change-Matplotlib-Style.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 111 


1) تسريع إدخال / إخراج باركيه من 222025 بمقدار خمس 
مراتع:5 Speed-up Parquet I/O of Pandas by‏ 


pandas.py 


file.parquet: 
5 pd 32M rOWS 


df pd.read_parquet("file.parquet") 


fastparquet.py 


7 5x Faster 
fastparquet ParquetFilLe 


TT pf ParquetFile('file.parquet' ) 


df pf.to_pandas() 


in| linkedin.com/in/avi-chawla 
1222025 غالمًا ما يتم تخزين إطارات البياناتفي ملفات باركيه 8125 0210116 وقراءتها باستخدام طريقة‎ 


.read_parquet() 


بدلا فو الي ام 25 . الذي يعتمد على نواة واحدة» استخدم .fstparquet‏ إنها توفر تسريعًا هاثلاً 
للإدخال / الإخراج على ملفات باركيه باستخدام المعالجة المتوازية 28ذووعء 20م 212116[1م. 


يمكنك العثور على مزيد من المعلومات هنا: المستندات. 
المقالة: 
https://avichawla.substack.com/p/speed-up-parquet-i0-of-pandas-by‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data-Science/blob/main/Run- 
time%200ptimization/Parquet- Optimize.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 175 


2) 40 أداة مفتوحة المصدر لتعزيز سير عمل 220125 الخاص 
بك 40 Open-Source Tools to Supercharge Your‏ 


Pandas Workflow 


upercharqe 
Pandas 
انا‎ 


تتلقى 23025 أكثر من 3 ملايين تنزيل يوميًا. لکن 99./ من مستخدميها لا يستخدمونها بكامل طاقتها. 


لقد اكتشفت هذه الأحجار الكريمة مفتوحة المصدر التى ستعزز بشكل كبير أعمال كول مه۴ الخاصة بك 
وما أن تبدأفي استخدامها. 


اقرأ هذه القائمة هنا: 
https://avichawla.substack.com/p/37-open-source-tools-to-supercharge-‏ 
Pandas‏ 
المقالة: 
https://avichawla.substack.com/p/37-open-source-tools-to-supercharge-‏ 


pandas 
الكود:‎ 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Documents/40-pandas-libs.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


176 


3) توقف عن استخدام طريقة الوصف في 222025. بدلا من 


ذلك. استخدم رمpصنSk.‏ 


Stop Using The Describe 


.Method in Pandas. Instead, use Skimpy 


skimpy summary 
Data Types Categories 


Column Type | count | Categorical Variables 
class 
location 


float64 
category 
datetime64 
int64 

bool 
string 


KZ KE LS E KE 


Lan 6e-06 
0. mS 


Ln 
-0. 74 0. 6 


E CS CS CX‏ امس ست 


8 8 False 
1 0.1 False 


-2. : 


category 


datetime 


2018-01-31 
1992-01-05 


2101-04-30 
2023-03-4 


string 


E LS LLL ESE‏ الام دست 


bool 


520 0.52 


اق KL‏ متت ااام ست 
SI 1‏ 


End 


skimpy 
skim(df ) 


Data Summary 


Number of rows 1000 
Number of columns | 08 


in linkedin.com/in/avi-chawla 


.Pandas describe n ethod تعزيز طريقة الوصف‎ 


Skimpy‏ هى أداة خفيفة لتلخيص إطارات بيانات 2311025 .في سطر واحد من التعليمات البرمجية» ينشئ 


ملخصًا إحصائيًا أكثر ثراءَ من طريقة ()عط1إءءمل. 


علاوة على ذلك يتم تجميع 
من سطر الأوامر أيضً]. . 


يمكنك العثور على مزيد من المعلومات هنا: المستندات. 


تجميع الملخص حسب أنواع البيانات لتحليل فعال. يمكنك استخدام د51 


177 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/stop-using-the-describe-method-in-85e‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Superchared-Describe-2.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 178 


۲1۲ الطريقة الصحيحة لطرح تحديثات المكتبة في بايثون‎ )4 
Right Way to Roll Out Library Updates in Python 


my_library.py‏ م 


deprecated deprecated 


ction will be 


project.py 


old_value old_function() 


DeprecationWarning: Call to deprecated function 
old_function. (old_function will be deprecated 
in the next release. Use new_function.) 


in| 1116010 Com/in/avi-chawla 

أثناء تطوير مكتبة 1151237. قد يقرر المؤلفون إزالة بعض الدوال وده اعصدة/ الأساليب /methods‏ 
الفئات 125565. لكن طرح التحديث على الفور دون أي تحذير مسبق ليس ممارسة جيدة. 
هذا لأن العديد من المستخدمين ربما لا يزالون يستخدمون الطرق القديمة وقد يحتاجون إلى وقت 
لتحديث التعليمات البرمجية الخاصة بهم. 
باستخدام 04621668660 يمكن للمرء أن ينقل تحذيرًا للمستخدمين حول التحديث. هذا يسمح لهم 
بتحديث التعليمات البرمجية الخاصة بهم قبل أن تصبح قديمة. 
يمكنك العثور على مزيد من المعلومات هنا: 6111111 . 

المقالة: 

https://avichawla.substack.com/p/the-right-way-to-roll-out-library 
الكود:‎ 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Deprecated- Warning.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


5) أسطر بسيطة واحدة لمعاينة شجرة القرار باستخدام 
Simple One-Liners to Preview a Decision Tree Sklearn‏ 


Using Sklearn 


my_tree = DecisionTreeClassifier( ( 
my_tree.fit(X, (7ة‎ 


from sklearn.tree import plot_ tree, export_text 


plot_tree(my_tree, feature_names=features, 
class_names=classes, filled=True) Method 1 


petal_width <= 0.8 
gini = 0.667 
samples = 150 
value = [50, 50, 50] 
class = setosa 


petal_width <= 1.75 
gini = 0.5 
samples = 100 
value = [0, 50, 50] 
class = versicolor 


print (export_text (my_tree, feature_names=features) ( M eth od 2 


|--- petal_width <= 0.80 

| |--- class: setosa 

|--- petal_width > 0.80 

| |--- petal_width <= 1.75 

| | |--- class: versicolor 
| |--- petal_width > 5 

1 


|--- class: virginica 


in linkedin.com/in/avi-chawla 


إذاكنت ترغبفي معاينة شجرة القرار ۴إا 015101ع1. فإن 511212 يوفر طريقتين بسيطتين للقيام بذلك. 
1 666 10ج يُنشئ تمثيلًا رسوميًا لشجرة القرار. 
tex .2‏ 8001© يُنشئ تقريرًا نصيًا يوضح قواعد شجرة القرار. 
يستخدم هذا عادةً لفهم القواعد التي تعلمتها شجرة القرار واكتساب فهم أفضل لسلوك نموذج شجرة 
القرار. 


180 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/simple-one-liners-to-preview-a-decision‏ 
الكود: 

https://github.com/ChawlaAvi/Daily-Dose-of-Data 


Science/blob/main/Plotting/Preview-Decision-Tree.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 181 


6 توقف عن استخدام طريقة الوصف في 22025د2. بدلا من 
«Ji‏ الستخدم Stop Using The Describe Summarytools‏ 
Method in Pandas. Instead, use Summarytools‏ 


Freqs / (% of Valid) Graph 


Mean (sd) : 5.8 (0.8) 
min < med < max: 


aT چ‎ 


4.3 > 5.8 > 9 
IQR (CV): 1.3 (7.1) 


Mean (sd) : 3.1 (0.4) 
min < med < max: 
2.0 < 3.0 < 4.4 

IQR (CV) : 0.5 (7.0) 


Mean (sd) : 3.8 (1.8) 
min < med < max: 
1.0 > 4.3 > 9 

IQR (CV) : 3.5 (2.1) 


Mean (sd) : 1.2 (0.8) 
min < med < max: 
0.1 > 1.3 > 5 

IQR (CV): 1.5 )1.6( 


1. setosa 50 (33.3%) 
2. versicolor 50 (33.3%) 
3. virginica 50 )33.396( 


23 distinct values 


22 distinct values 


in linkedin.com/in/avi-chawla 
هى أداة بسيطة لتحليل البيانات الاستكشافية £54 تعطى ملخصًا أكثر ثراءٌ من طريقة‎ 015 
من التعليمات البرمجيةء يقوم بإنشاء ملخص اتات بخيارى وشات‎ E j .describe() 
يتضمن الملخص إحصائيات العمود والتكرار ومخطط التوزيع والإحصائيات المفقودة.‎ 
يمكنك العثور على مزيد من المعلومات هنا: أدوات الملخص.‎ 
المقالة:‎ 
https://avichawla.substack.com/p/stop -using-the-describe-method-in 
الكود:‎ 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Supercharge-Describe.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 182 


7) لا تبحث أبدا في نوتبوك إء رمن [يدويًا مرة أخرى للعثور على 
الكود الخاص بك Never Search Jupyter Notebooks‏ 
Manually Again To Find Your Code‏ 


Search in 
all notebooks 


$ nbsrep "import DD 


31أمطة 1 


cell 3:line 1 : import os‏ : طاطلام1 .عات د0طعمع8 
ipynb 2 SÎ: import os‏ . 0010 
import os‏ : إلا kmeans.ipynb : Col S Ne‏ 


in linkedin.com/in/avi-chawla 
هل سبق لك أن عانيت لتذكر دفتر ءارما[ المحدد الذي كتبت فيه بعض الاكواد؟ إليك حيلة سريعة‎ 
لتوفير الكثير من العمل اليدوي والوقت.‎ 


توفر 066010103005 مجموعة من الأوامر للتفاعل مع اءةلام11[ من الجهاز. 
على سبيل المغال» يمكنك البحث عن التعليمات البرمجية ومعاينة بعض الخلايا ودمج التوتبوك وغير 
ذلك الكثير. 
يمكنك العثور على مزيد من المعلومات هنا: 161111 ©. 
المقالة: 
https://avichawla.substack.com/p/never-search-jupyter-notebooks-manually‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Jupyter%20 Tips/Search-Code-in-Jupyter.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 183 


F-strings Are Much سلاسل 8 أكثر تنوعا مما تعتقد‎ )8 
More Versatile Than You Think 


Formatting lin linkedin.com/in/avi-chawla 


print (f"3 decimals: {number: ۳" 3 decimals: 205.000 
print(f"5 digits: {number:05}") 5 digits: 00205 


print (f"scientific: {number:e}") scientific: 2.050000e+02 


Converting 


print (f"binary: {number :b}" binary: 11001101 
print (f"hex: {number :#Ox}" hex: Oxcd 


print (f"octal: {number:o}" 026291: 315 


فيما يلي 6 طرق أقل شهرة لتنسيق / تحويل رقم باستخدام سلاسل ۴ (عصذعء-؟). ما هو الاختراق 
المتضل لديك 
المقالة: 
https://avichawla.substack.com/p/f-strings-are-much-more-versatile‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/f-strings-hack.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 184 


9) هل هذا هو أفضل دليل متحرك ل قصدء 1211 على الإطلاق؟ 15 
The Best Animated Guide To KMeans Ever‏ قتط 1 "2 


K-Means Clustering 


Algorithm 


By: Avi Chawla 


su bstack .COI 


هل واجهت صعوبةفي فهم 11/1625؟ كيف يعمل» كيف يتم تعيين نقاط البيانات 7001245 0262 إلى 
النقطة الوسطى ءلذهإ٤صهء.‏ أو كيف تتحرك النقطة الوسطى؟ 


إذا كانت الإجابة بنعم. دعني أساعدك. 
لقد قمت بإنشاء انيميشن جميل باستخدام 2/1335 لمساعدتكفي بناء فهم حدسي للخوارزمية. 
الرجاء العقور على هاا القرنيو ها رايط يكيو 
المقالة: 
https://avichawla.substack.com/p/is-this-the-best-animated-guide-to‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/KMeans-Visualization.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 155 


ee (89‏ زر 5 فعالة ولكن تم الا اخ 5 اف بها ل 1 1 أداء 
النموذج An Effective Yet Underrated Technique 'I'o‏ 


Improve Model Performance 


Original Images 


imgaugs.augmenters 


seq iaa.Sequential( [ 
iaa.FLiplr(0.5), 
iaa.Rotate((-40,40)), 
N 


images_aug seq( images) 


Augmented 
HER ES) 


in linkedin.com/in/avi-chawla 
نماذج التعلم الآلي القوية مدفوعة ببيانات تدريب متنوعة. إليك أسلوب بسيط ولكنه فعال للغاية يمكن أن‎ 
يساعدكفي إنشاء مجموعة بيانات متنوعة وزيادة أداء النموذج.‎ 


طريقة واحدة لزيادة تنوع البيانات 015615167 0262 هي استخدام زيادة البيانات 21181261262601 .data‏ 


الفكرة هي إنشاء عينات جديدة عن طريق تحويل العينات المتاحة. هذا يمكن أن يمنع الضبط الزائد 
»overfıtting‏ وتحسين الأداء «improve performance‏ وبناء نماذج قوية .build robust nodels‏ 


بالنسبة للصورء يمكنك استخدام 11182118. يوفر مجموعة متنوعة من تقنيات زيادة البيانات مثل التقليب 
flipping‏ والتدوير ع 006+ والقياس 5021128 وإضافة الضوضاء 120156 إلى الصور وغير ذلك الكثير. 


البحث عن مزيد من المعلومات: 11192116. 


186 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/an-effective-yet-underrated-technique‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/Data-Augmentation.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 187 


0) إنشاء مخططات البيانات مباشرة من الترمينال عغمء:© 
Data Plots Right From The Terminal‏ 


>>> from bashplotlib.histogram import plot_hist 
>>> np_arr = np.random.normal(size=1000) 
>>> plot_hist(np_arr, bincount=50) 


54 | 0 
51| o0 00 
48| 6000 000 0 
| 45 | 6000 000 0 
43| 60000 000 O 
40 | 000000000 0 
37| 000 0 
34 | 000 0 
351 OOO0000000000000 
29| OO0OO0000000000000 
2020 
220 
22220 
0000000000000000000000 O 
0000000000000000000000 0 
00000000000000000000000000 O 
000000000000000 2-0 
oo 0000000000000000000000000000 O 
0 6 OO000000000000000000000000000000 0000000 
OOOO00000000000000000000000000000000000 00000 0 


in linkedin.com/in/avi-chawla 


يمكن أن يصبح تصور البيانات 0262 1715112112128 أمرًا صعبًا عندما لا يكون لديك وصول إلى واجهة 
ا ا مو واكم [ليك ای کان ساعد 


يوفر طانااهامطءه8 طريقة سريعة وسهلة لإنشاء المخططات الأساسية مباشرة من الترمينال اقصنصإع). 
نظرًا لكونك بايثون خالصًاء يمكنك تثبيته بسرعةفي أي مكان باستخدام مذم وتصور بياناتك. 


يمكنك العثور على مزيد من المعلومات هنا: 104111م28251. 
المقالة: 
https://avichawla.substack.com/p/create-data-plots-right-from-the‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 


Science/blob/main/Terminal/Plotting-in-Terminal.ipynb 


کے 
00 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 8 


Make Your اجعل مخططات ط10135م112 أكثر احترافية‎ )1 
Matplotlib Plots More Professional 


matplotlib 


Current (A) 


0.9 1.0 
Voltage (mV) 


in linkedin.com/in/avi-chawla 
تعد مخططات 111260106115 الافتراضية أساسية جدافي النمط ع5571. وبالتالى» قد لا تكون الخيار المناسب‎ 
دائمًا. إليك كيف يمكنك جعلها جذابة.‎ 
لإنشاء مخططات جذابة وذات مظهر احترافى للعروض التقديمية أو التقارير أو الأوراق العلمية. جرب‎ 
.Science Plots المخططات العلمية‎ 
تؤدي إضافة سطرين فقط من التعليمات البرمجية إلى تغيير مظهر المخطط تمامًا. يمكنك العثور على‎ 
. مزيد من المعلومات هنا: 111 ]غ61‎ 
المقالة:‎ 
https://avichawla.substack.com/p/make-your-matplotlib-plots-more- 


professional 


الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Profession-Science-Plots.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 159 


Hie” 37 مكتبة بايثون المخفية هي جواهر مطلقة‎ 37 2 
Python Libraries That Are Absolute Gems 


37 Gem Puthon 
$¥ Libraries مم‎ 


Waiting To 6e 
Discovered 


لقد راجعت أكثر من 1000 مكتبة بايثون واكتشفت هذه الجواهر الخفية التي لم أكن أعرف بوجودها من 
إليك بعضًا منها ستجعلك تقعفني حب بايثون وتعدد استخداماتها (حتى أكثر). 
اقرا ا هذه القائمة هنا: .https://avichawla.substack.com/p/gem-libraries‏ 
المقالة: 
https://avichawla.substack.com/p/gem-libraries‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Documents/37-cool-libs.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 190 


3) قم بمعاينة ملف 11883101113 الخاص بك محليًا بأسلوب 
Preview Your README File Locally In GitHub‏ 
GitHub Style‏ 


Terminal 


Preview 
README 
in browser 


Run These Code Snippets on Your Local Machine 


o drurtosd me tes معلا‎ here, ya can lane ha mee 


in linkedin.com/in/avi-chawla 


يرجى مشاهدة نسخة فيديو لفهم أفضل: رابط الفيديو. 

هل سبق لك أن أردت معاينة ملف E۸0 N۴‏ ۸ قبل إلزامه ب 01]1111؟ هنا كيفية القيام بذلك. 

هي أداة سطر أوامر تتيح لك عرض ملف 1215810111 كما سيظهر على 01]116. هذا مفيد للغاية 

حيث قد يرغب المرء أحيانًافي معاينة الملف قبل دفعه إلى 113 ]61 . 

والأكثر من ذلك» أن تحرير ۸5۷۴ ۸ يظهر على الفورني المتصفح دون أي تحديث للصفحة. 

اقرأ المزيد: ض:©. 
المقالة: 

https://avichawla.substack.com/p/preview-your-readme-file-locally 

الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Coo0l%20T'ools/README-preview-local.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 191 


4) تقوم 222025 و Num ٥y‏ بإرجاع قيم مختلفة للانحراف 
المعيارى. لماذا؟ Pandas and NumPy Return Different‏ 
?Values for Standard Deviation. Why‏ 


Std-dev.py 


numpy np 
pd std-dev using 


Pandas and 


X np.arange (20) NumPy 
df pd.DataFrame (X) 


print (f"NumPy : {np.std(X)}") ا‎ 
) 


pandas 


pIrInNt(T Pandas: {dT sa0) 


۹ 


different 
NumPy : 5.766 
output Pandas: 5.916 
in linkedin.com/in/avi-chawla 
تفترض 23025 أن البيانات هي عينة من السكان وأن النتيجة التي تم الحصول عليها يمكن أن تكون‎ 
متحيزة 113560 تجاه العينة.‎ 


وبالتالي» لتوليد تقدير غير متحيز ع]50112© 112112560 فإنه يستخدم (۸-1) كعامل قسمة بدلاً من 1. 
2 الإحصاء. يعرف هذا أيضًا باسم تصحيح بيسل .Bessel's correction‏ 


1127 » ومع ذلك » لا يقوم بأي تصحيح من هذا القبيل. يمكنك العثور على مزيد من المعلومات 
هنا: تصحيح بيسل. 
المقالة: 
https://avichawla.substack.com/p/pandas-and-numpy -return- different‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Statistics/Std-dev-Pandas-NumPy.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 192 


5) تصور تاريخ نص صەہع ل ٥معR Git‏ مع الانيمشن الجميل 
Visualize Commit History of Git Repo With Beautiful‏ 
Animations‏ 


11121 


اه $ 


مع نمو حجم مشروعك. قد يكون من الصعب فهم شجرة ز6 . 

016-5015 هي أداة سطر أوامر لإنشاء رسوم متحركة أنيقة لمستودع اع الخاص بك. 

يقوم بإنشاء مقطع فيديو يصور الالتزامات 002212215 والفروع branches‏ والدمج merges‏ و HEAD‏ 

itصصتء‏ وغير ذلك الكثير. ابحث عن مزيد من المعلوماتفي التعليقات. 

وحن مشاهدة نكا يديو من هذا الور ها قي 

اقرأ المزيد: تحده]165©. 
المقالة: 

https://avichawla.substack.com/p/visualize-commit-history-of-git-repo 

الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Terminal/Git-Story.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 193 


6) otاPerfp:‏ قم بقياس وقت التنفيذ وتصوره ومقارنته 
بسهولة Perfplot: Measure, Visualize and Compare‏ 
Run-time With Ease‏ 


in linkedin.com/in/avi-chawla 
perf-plot.py 8 


perfplot 


perfplot. show ) 
5 مم‎ . 2230060171 . rand <. Create Data 
5-] 

2065:2137 al, 


a Mp SEackK(la, 30 2 Functions 


5 Mp. Vstack(la, all, 


) 
a: np.column_stack([a, 3[( 


Input Size 
Range 


إليك طريقة أنيقة لقيامن وقت فيد دوال بايقون المختلفة. 


/ هى أداة مصممة لإجراء مقارنات سريعةفي وقت التنفيذ 112-816 للعديد من الدوال‎ Perfplot 


إنه يوسع حزمة وقت بايثون ويسمح لك بتصور وقت التنفيذ بسرعة بطريقة واضحة وغنية بالمعلومات. 


العثور على مزيد من المعلومات: غ+2611010. 


194 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/perfplot-measure-visualize-and-compare‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Perfplot.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 195 


7) يمكن أن توفر لك أداة واجهة المستخدم الرسومية هذه 
ساعات من العمل اليدوى This GUI Tool Can Possibly‏ 
Save You Hours Of Manual Work‏ 


= Visual Python 


In [1]: # Visual Python: Data Analysis > Import 
import 


5 as pd 
import matplotlib.pyplot as plt 
$matplotlib inline Logic 

# visual Python: Data Analysis > Fil ey 

= pd.read_csv(' ./dummy_data.csv' ) aS 


# visual Python: Visualiza 


s visualization > Plotly 
fig = px.scatter(df, x='Employee_Rating', y='Employee_Salary', color=' Employment, 
شت‎ || || 


8 Employment_Status 
6 ® Int Visualization 


intern 
» Full Time 


5م قر اك اك اكير 5 5 
8 س ٠.‏ 


Machine Learning 
rl o 04 
ان‎ CO له | يخا‎ 

Data Sets Ota Prep j AuroMlL f Regressor f Classifier 
SS EN © E 

Ousteriîng jj Dimension f FiVPredict f Model Info f Evaluation 


Employee_Salary 


in linkedin.com/in/avi-chawla 


يرجى مشاهدة نسخة فيديو من هذا المنشور لفهم أفضل: الرابط. 

هذه بالفعل واحدة من أروع أدوات علم البيانات المستندة إلى نوتبوك ءارما[ وأكثرها فائدة. 
2 17150131 هو منشئ كود بايثون قائم على واجهة المستخدم الرسومية. باستخدام هذاء يمكنك 
بسهولة التخلص من كتابة التعليمات البرمجية للعديد من المهام المتكررة. يتضمن ذلك استيراد المكتبات 
وعمليات الإدخال / الإخراج وعمليات 232035 والتخطيط وما إلى ذلك. 

علاوة على ذلك بنقرة اثنين من الأزرار. يمكنك استيراد الكود للعديد من الأدوات المساعدة المستندة 
إلى التعلم الآلي. يغطي هذا نماذج 5116352 ومقاييس التقييم ودوال تقسيم البيانات وغير ذلك الكثير. 


. Visual Python اقرأ المزيد:‎ 


196 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/this-gui-tool-can-possibly-save-you‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Coo0l1%20Tools/Visual-Python.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


8) كيف يمكنك تحديد التكرارات الضبابية في بيانات تحتوي 


10 


How Would You Identify Fuzzy على مليون سجل؟‎ 
?Duplicates In A Data With Million Records 


lin linkedin.com/in/avi-chawla 


9371184929 


93711-9 


Data with 
fUZzy 
duplicates 


748925 
748-191-5 
8699-1 
(150(082-7982 


698-1590x3236 


69815903236 


First_Name Last_Name Address 


0 Daniel Lopez 719 Greene St. East Rhonda 


1 Daniel NaN 719 Green Street East Rhoda 


Alan Martin 982 Carol Harbors Apart. 


Alan Martin NaN 982 Carol Aparments 


Owens 2578 Banks Ford 


Shannon White USCGC Molina 


Julia Anderson 09162 Mason Mnts. 


2 
3 
4 Philip 
5 
6 
5 


Juliya  Anderrson 9162 Mason Street Mountain 


Command Line 


$ csvdedupe input.csV ١ 


--field_names First_Name Last_Name Address Phone ١ 
--output_file output.CsV 


719 Greene St. East Rhonda 9371184929 


719 Green Street East Rhoda 93711-9 
982 Carol Harbors Apart. 74891925 
982 Carol Aparments 748-191-9235 
2578 Banks Ford 869-6922x9581 
USCGC Molina (150)082-7982 
09162 Mason Mnts. 698-1590x3236 


9162 Mason Street Mountain 69815903236 


Cluster ID First_Name Last_Name 


Lopez 
nan 
Martin 
nan 
Owens 
White 


Anderson 


Anderrson 


Daniel 
Daniel 
Alan 


Alan Martin 


Marked 
Duplicates 


Philip 
Shannon 
Julia 


Juliya 


تخيل أن لديك أكثر من مليون سجل مع تكرارات ضبابية 5ع11626م011 4112297. كيف يمكنك تحديد 


التكرارات المحتملة؟ 


النهج الساذج لمقارنة كل زوج من السجلات غير ممكنفي مثل هذه الحالات. هذا أكثر من 
0 مقارنات (22). بافتراض سرعة 10000 مقارنةفي الثانية» سيستغرق الأمر 3 سنوات تقرييًا حتى 


198 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


تعمل أداة ململ »وء على حل هذه المشكلة عن طريق تقليل المقارنات بذكاء. على سبيل المثالء لا 

معنى لمقارنة اسم Daniel"‏ " ب Philip"‏ " أو Shannon"‏ " ب 1113[ ". هم مضمونون لیکونوا سجلات 

مميزة. 

وبالتاليء فإنه يقوم بتجميع البياناتفي مجموعات أصغر بناءً على القواعد. يمكن أن تتمثل إحدى القواعد 

في تجميع جميع السجلات بنفس الأحرف الثلاثة الأولىفي الاسم. 

بهذه الطريقةء فإنه يقلل بشكل كبير من عدد المقارنات بدقة كبيرة. اقرأ المزيد: 6م011ع05570. 
المقالة: 

https://avichawla.substack.com/p/how-would-you-identify-fuzzy-duplicates 
الكود:‎ 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/T'erminal/Data-Deduplication.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 199 


9) أوقف معاينة إطارات البيانات الخام. بدلا من ذلك استخدم 
Stop Previewing Raw DataFrames. .Data Tables‏ 
.Instead, Use Data Tables‏ 


In [1]: import pandas as pd 
fron jupyter_datatables import init_datatables_mode 


In (2): init_datatables_mode() 
In [3]: pd.read_csv("employee_dataset.csv”*) 


pint | | csv f 8000 10 entres 


Name Company Name Employee_Job_Title Emoloyee_City Employee_Country 


ilu.‏ !!!| ]اناا .ساسم ١‏ أاااأااأأاااا سم 


Andrade LLC Energy manager North Melissafurt 
Wer Rasmussen Andrade LLC Equities trader 
Tifany Bailey Andrade LLC Energy manager 
Thomas Mullen Andrade LLC 
Steven Navarro Andrade LLC 
Steven Burgess Andrade LL 
166 Seley Ramirez Andrade LLC 
Sandra Gonzalez Andrade LLC 
426 Robert Reed Andrade LLC 


274 Robert Bryan Andrade LLC French Polynesia 


Showing 1 to 10 of 69 entries (filtered from 1,000 total entries) هن‎ | 2 3 4 5867 Next 


Sample size: 1,000 out of 1,000 


in linkedin.com/in/avi-chawla 


بعد تحميل أي إطار بياناتفي ارم دا[ نقوم بمعاينته. لكنها بالكاد تخبر أي شيء عن البيانات. 


على المرء أن يتعمق أكثر من خلال تحليلهء والذي يتضمن كوداً بسيطًا ولكنه متكرر. بدلاً من ذلك 
استخدم 1esۆData1a-Jupyter.‏ 


إنه يعزز المعاينة الافتراضية لإطار البيانات مع العديد من العمليات المشتركة. يتضمن ذلك الفرز والترشيح 
والتصدير وتخطيط توزيع الأعمدة وطباعة أنواع البيانات وتقسيم الصفحات. 
يرجى عرض تة الفيديو هنا لفهم أفضل: رايط المتشور. 
المقالة: 
https://avichawla.substack.com/p/stop -previewing-raw-dataframes-instead‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Jupyter%20 Tips/Jupter-Data Tables.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 200 


۸ سطر واحد سيجعل كود بايثون الخاص بك أسرع‎ )0 
Single Line That Will Make Your Python Code Faster 


> func_without_numba() : 
result = ][ 
for a in range(10000) : 
for b in ranse(10000) : 
if (a+b)%11 = 0: 
result.append((a,b) ) 


func_without_numba ( ) 


numba.py‏ م 


-om numba import njit 


anjit 
func_with_numba() : 
# same code 


func_with_numba( ) 


إذا كنت محبطًا من وقت تشغيل بايثون» فإليك كيف يمكن لسطر واحد أن يجعل التعليمات البرمجية 
الخاصة بك سريعة للغاية. 


2 هو مترجمفيٍ الوقت المناسب (11[) 226غ)-1156-12ز لبايثون. هذا يعنى أنه يأخذ كود بايثون 
الموجود لديك وينشى كوداً سريعًا للآلة (في وقت التنفيذ). 

وبالتالي» التجميع اللاحق 00121126101 وهمم يتم تشغيل التعليمات البرمجية الخاصة بك بسرعة كود 
الجهاز ااي يعمل 1111112 بشكل أفضل على الكود الذي يستخدم مصفوفات ودوال 1011217 
والحلقات. 


البدء: دليل baہNu.‏ 
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المقالة: 
https://avichawla.substack.com/p/faster-python-with-one-line‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data-Science/blob/main/Run- 
time%200ptimization/Numba- Faster-Python.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 202 
1 قم بتجميل سحابة الكلمات في بايثون Prettify Word‏ 
Clouds In Python‏ 


“om wordcloud i - 02001610 


wc = WordCloud().senerate(text) 


design 
SUPPOrtE 
du la 


dule 
readability 


PIL import Image 


00 
كم 


language} 


mask Image.open("pylogo.png") 


Tibrary 


wc = WordCloud(mask=mask, 


) 


wc.generate(text) 


in| linkedin.com/in/avi-chawla 


إذا كنت تستخدم سحابة الكلمات 101105 0104 كثيراء فإليك طريقة سريعة لجعلها أجمل. 


في بايثون» يمكنك بسهولة تغيير شكل ولون سحابة الكلمات. من خلال توفير صورة قناع 151286 kكقدص‏ 
ستأخذ سحابة العالم الناتجة شكلها وتبدو أكثر روعة. 


المقالة: 
https://avichawla.substack.com/p/prettify-word-clouds-in-python‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Pretty- Word-Clould.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 203 


2 كيفية ترميز الميزات الفئوية مع العديد من الاصناف؟ 
How to Encode Categorical Features With Many‏ 


?Categories 


category_encoders ce gender class 


Male A 
enc ce.BinaryEncoder (col 
Female 


enc. fit_transform(data["c Male 


Female 


Female 


غالبا ما نقوم بترميز هده الأعمدة الفثرية 2025تاآهء 21ع011ع23]6 بترميز واحد ساخن 06 ط-عه 


8 . لكن مصفوفة الميزات :202613 12266 تصبح متناثرة 502156 ولا يمكن التحكم فيها مع 
العديد من الفتات. 


توفر مكتبة مشفرات الفتات 0177-62006©15ع236© مجموعة من المشفرات على وجه التحديد 
للمتغيرات الفئوية 72112115 01121ع266ه. هذا يجعل من الصعب تجربة تقنيات الترميز المختلفة. 


على سبيل المثال» استخدمت المشفر الثنائي 0200061» 1317 أعلاه لتمثيل عمود فئوي بتنسيق ثنائي. 
اقرأ المزيد: التوثيق. 
المقالة: 
https://avichawla.substack.com/p/how-to-encode-categorical-features‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/Categorical-Encoding.ipynb 
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3) خريطة التقويم كبديل أغنى للمخطط الخطي 02ه216© 
Map As A Richer Alternative to Line Plot‏ 


0 2022-01-01 
1 2022-01-02 
2 2022-01-03 
3 2022-01-04 
4 2022-01-05 


in ılinkedin.com/in/avi-«chawla 


هل رأيت واحدة من تلك الخرائط الحرارية للتقويم 15225 1626 021620121؟ إليك كيفية إنشاء سطر من 
سطرين من كود بايثون. 


توفر خريطة التقويم 021620213 طريقة أنيقة لتصور البيانات اليومية.في بعض الأحيان. يكونون أفضل 
في تصوير الموسمية الأسبوعية / الشهريةفي البيانات بدلاً من المخططات الخطية 1065م 1106. على سبيل 
المثالء تخيل إنشاء مخطط خطي ل "رسائل مجموعة العمل "Work Group Messages‏ أعلاه. 


لإنشاء واحدة. يمكنك استخدام "104ملدهء_177غ10م". يجب أن يكون إدخاله إطار بيانات ©10221+22. 
يمثل الصف القيمة المقابلة للتاريخ. 
اقرأ المزيد: 106م021 .P1ot1y‏ 
المقالة: 
https://avichawla.substack.com/p/calendar-map-as-a-richer-alternative‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Calendar-Map.ipynb 
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4 10 أدوات آلية من تحليل البيانات الاستكشافية ستوفر 
عليك ساعات من العمل (الشاق) 10 Automated EDA‏ 
‘Tools That Will Save You Hours Of (Tedious) Work‏ 


تظل معظم الخطواتفي مهمة تحليل البيانات كما هي عبر المشاريع. ومع ذلك فإن البحثفي البيانات 
يدويًا أمر شاق ويستغرق وقتا طويلاً. مما يعيق الإنتاجية. 
فيما يلى 10 أدوات من تحليل البيانات الاستكشافية £14 تعمل على أتمتة هذه الخطوات المتكررة 
المقالة: 
https://avichawla.substack.com/p/10-automated-eda-tools-that-will‏ 
الكود: 


https: //avichawla.substack.com/p/10-automated-eda-tools-that-will 
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5 لماذا قد لا تكون 111225 خوارزمية التجميع المناسبة 
دائما Why KMeans May Not Be The Apt Clustering‏ 
Algorithm Always‏ 


Incorrect c 


1 : 


Kmeans 


sklearn cluster 
cluster.KMeans(2).fit (X) 


DBSCAN 


sklearn cluster 
cluster .DBSCAN().fit(X) 


in linkedin.com/in/avi-chawla 


5« هي خوارزمية تجميع 0115661128 شائعة. ومع ذلك فإن قيودها تجعلها غير قابلة للتطبيقفي 
كثير من الحالات. 

على سبيل المثال» يقوم KMeans‏ بتجميع النقاط استنادًا إلى المنطقة المحلية من النقط الوسطى 
9 ه. وبالتالي» يمكن أن تنشئ مجموعات خاطتة عندما تحتوي نقاط البيانات على أشكال 
عشوائية. 

من بين العديد من البدائل الممكنة 10135004107 وهي خوارزمية تجميع تعتمد على الكثافة -/16قطع0 
algorithm‏ usteringاc‏ 0ع5د6. وبالتالي؛ يمكنه تحديد مجموعات 61156655 من الشكل والحجم 


يمكنك العثور على المزيد هنا: دليل ١إ2ءاk؟.‏ 
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المقالة: 


https://avichawla.substack.com/p/why-kmeans-may-not-be-the-apt 


clustering 


الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/DBSCAN-vs-KMeans.ipynb 
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6) ربما لم يكن تحويل 2ه0ط29 إلى ©2ع'1 12 بهذه البساطة 
Converting Python To 121626 Has Possibly Never‏ 
Been So Simple‏ 


import latexify 
import math 


@latexify. function Add decorator 
def roots(a, b, Cc): 
return (-b + math.sqrt(b**2 - 4*a*c)) / (2*a) 


roots 


b + dae 


roots(a, b, e) = — 


@latexify. function 
def fib(n): 
if n<2: 
return 1 
else: 
return fib(n-1) + fib(n-2) 


fib 


ifn <2 


fib(n) = { 1 
fib (n — 1) + fib (n — 2), otherwise 


in linkedin.com/in/avi-chawla 
فجرب ۷م_ل؟fا×6ھا. باستخدام ھذاء يمكنك‎ [4٦ ٤× إذا كنت تريد عرض كود بايثون وإخراجها ك‎ 
طباعة كود بايثون كتعبير 121676 وجعل كودك أكثر قابلية للتفسير 16ط1)2م10661.‎ 


علاوة على ذلك» يمكنه أيضًا إنشاء كود 1,3'1676 لكود بايثون. هذا يوفر الكثير من الوقت والجهدفي كتابة 
التعبيرات يدويًافي ×1 14. 
يمكنك العثور على مزيد من المعلومات هنا: المستودع. 
المقالة: 
https://avichawla.substack.com/p/converting-python-to-latex-has-possibly‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Coo0l1%20T'ools/Python-To-LaTeX.ipynb 
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5مووزاy مخطط الكثافة كبديل أغنى لمخطط التشتت‎ )7 
Plot As A Richer Alternative to Scatter Plot 


scatter.py 


SNS. SCaltterpLOE(XSdf.X, 
VD 


density.py‏ م 


Sns.kdeplot(x=df .X, 
y=df.¥) 


in linkedin.com/in/avi-chawla 
المخططات المبعثرة (التشتت) مفيدة للغاية لتصور مجموعتين من المتغيرات العددية. ولكن عندما يكون‎ 
لديك. على سبيل المثالء آلاف نقاط البيانات» يمكن أن تصبح المخططات المبعثرة كثيفة للغاية بحيث‎ 
لا يمكن تفسيرها.‎ 
يمكن أن يكون مخطط الكثافة 106م 51697م06 خيارًا جيداني مثل هذه الحالات. يصور توزيع النقاط‎ 
باستخدام الألوان (أو المنسوب 601601:5). هذا يجعل من السهل تحديد المناطق ذات الكثافة العالية‎ 
والمتفففة.‎ 


علاوة على ذلك» يمكن أن تكشف بسهولة عن مجموعات من نقاط البيانات التي قد لا تكون واضحةفي 
مخطط التشتت. 


اقرأ المزيد: المستندات. 
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المقالة: 
https://avichawla.substack.com/p/density-plot-as-a-richer-alternative‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Density-Plot.ipynb 
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8 30 مكتبة بايثون (بشكل كبير) لتعزيز إنتاجية علم 
البيانات الخاصة بك 30 Python Libraries to (Hugely)‏ 
Boost Your Data Science Productivity‏ 


65 


„to (Hugely) Boost 


ش © ° | 1 م 
فيما يلي مجموعة من 30 مكتبة أساسية لعلم البيانات مفتوحة المصدر. لكل منها حالة استخدام خاصة 
به وإمكانات هائلة لزيادة مهاراتكني علوم البيانات. الرابط. 
المقالة: 
https://avichawla.substack.com/p/30-python-libraries-to-hugely- boost‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Documents/30%20Python%20Libraries%20t0%20(Hugely) 
%20Boost%20Your%20Data%20Science%20Productivity.pdf 
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9) سطر واحد صكدعء511 لتوليد البيانات التركيبية معدعلاد 
One-liner to Generate Synthetic Data‏ 


» dummy_data.py 


sklearn.datasets make_classification 


make_classification (n_sampl 


print (X) 
array([[-0.36, 


arFaVCIO, 1, 


in linkedin.com/in/avi-chawla 
فى كثير من الأحيان لاختبار / بناء خط أنابيب البيانات» قد نحتاج إلى بعض البيانات الوهمية إصصصال‎ 
. 


باستخدام «Sklearn‏ يمكنك بسهولة إنشاء مجموعة بيانات وهمية لمهام الانحدار regression‏ 
والتصنيف 012551622601 والتجميع 61115]61128. 


مزيد من المعلومات هنا: وثائق 5121»21. 
المقالة: 
https://avichawla.substack.com/p/sklearn-one-line-to-generate-synthetic‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Sklearn/Sklearn-Synthetic-Data.ipynb 
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Label Your Data With قم بتسمية بياناتك بنقرة زر‎ ])] 0 
The Click Of A Button 


from ipyannotate import annotate 


from ipyannotate.buttons import ValueButton as Button 


annotation = annotate ( images_data, # data 
buttons=[ Button('Dog'), # label buttons list 
Button ( 'Cat')]) 
annotation 


In [6]: labels = [task.value for task in annotation.tasks] # get labels 
labels 


Out[6]: ['Cat', 'Dog', 'Dog', 'Cat'] 


in linkedin.com/in/avi-chawla 
فی كثير من الأحيان مع البيانات غير المسماة (غير المصنفة) 0262 101206160اء قد يضطر المرء إلى‎ 
قضاء بعض الوقتفي التعليق 2210426128 عليها / تصنيفها عدناءطها.‎ 


للقيام بذلك بسرعةفي نوتبوك إعارم دال استخدم 15372111206266. باستخدام هذاء يمكنك إضافة تعليق 
توضيحي لبياناتك بمجرد النقر فوق الزر المقابل. 
اقراً المزيد: .ipyannotate‏ 
شاهد نسخة فيديو من هذا المنشور على 012ع1.121: رابط النشر. 
المقالة: 
https://avichawla.substack.com/p/label-your-data-with-the-click-of‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Co0l1%20Tools/annotate-data.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


Analyze A Pandas )تحليل إطار بيانات 222025بدون كود‎ 1 
DataFrame Without Code 


: import pandas as pd 
from pandasgui import show 


: df = pd.read_esv( "Dummy_Dataset.esv") 


: show(df) 
Pandas 


Dataframe _ Statistics Grapher 


Name Company_Name Employee_Job_Title Employee_ chy 
Michael Clark James and Sons Regulatory affairs officer Ricardomouth 
Edwin Smith Baker, Allen and Edwards Trading standards officer نا‎ 
Leslie Donovan Nelson-Li Naval architect New Russellton 
Phyllis King Taylor-Ramos. Make Rieardomouth 
Joshua Patterson Thomas-Spencer Retail merchandiser Wardfort 
Cheyenne Torres Nelson-Li Aetuary Kristaburgh 
Jonathan Chen Wallace Smith and Shepard Actuary New Cindychester 
Scott Powell Scott Ine Administrator Ricardomouth 
Theresa Doyle Bullock-Carrillo Production engineer Ricardomouth 
Kristen Harrington James and Sons Sales promotion account executive Kristaburgh 
Joseph Hunt Wallace Smith and Shepard Armed forces logistics/supportladminists ative officer Aficiafort 

Tracy King Bullock-Carrillo  Garment/textile technologist New Cindychester 
Julie Moses Bullock-Carrillo Energy manager North Melissafurt 
Tanya Cross James and Sons Aetuary Ricardomouth 
Christopher Berry Marshall-Holloway Aetuay Ricardomouth 
Rebecca Jimenez White Mcclain and Cobb Diplomatic Services operational officer West Jsmesvlew 
Adam Sampson Investment banker,corporate West Jamesvlew 


Company_Name 
Employee_Job_Title 
Employee_ City 
Employee_ Country 
Emoloyoe_Salary 
Employment_Status 
Employee_Rating 
Credits 


Austin Smith rshall- tor New Russellton 
John Edwards New Russellton 
Theresa Espinoza ١ 3 New Cindychester 
Lisa Mccall 1 West Jamesview 
Scott Escobar ichols-. 2 3 Kristaburgh 
Christopher Callahan '-Spencer ra ٠ North Melissafurt 
Ricardomouth 


E SS دام قاس‎ OT O LB RES ع اع‎ e U e سابع‎ E انما‎ 


in linkedin.com/in/avi-chawla 
Gا1- إذا كنت ترغب في تحليل إطار البيانات الخاص بكفي تطبيق قائم على واجهة المستخدم الرسومية‎ 
فجرّب 61 222025. يوفر واجهة مستخدم رسومية أنيقة لعرض مجموعات‎ based appاication‎ 
البيانات المجدولة وترشيحها وفرزها ووصفهاء وما إلى ذلك.‎ 


علاوة على ذلك باستخدام وظيفة السحب والإفلات البديهية» يمكنك بسهولة إنشاء مجموعة متنوعة من 
الات و د 


شاهد نسخة فيديو من هذا المنشور على 1-121©011آ. 
المقالة: 
https://avichawla.substack.com/p/analyze-a-pandas-dataframe-without‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Pandas-GUI.ipynb 
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N 
ت‎ 
ارق‎ 


2) سطر واحد بايئون لإنشاء مخططات مرسومة يدويا 
Python One-Liner T'o Create Sketchy Hand-drawn‏ 
Plots‏ 


indent plot 
under xkcd() 


2 “1600 16م 
BLE. bak...)‏ 

8" am Product A 

7 || wm Product 8 


Hand-drawn | 
3 3 3 


in linkedin.com/in/avi-chawla 


تشتهر 00:11 4× بأسلوبها غير الرسمي والفكاهي» فضلاً عن اشكالها اللاصقة والرسومات البسيطة. 


يعد إنشاء مثل هذه المخططات المرسومة يدويًا الجذابة بصريًا أمرًا بسيطًا جد باستخدام طذاغ10م5226. 
فقط ضع مسافة بادئة للكودفي سياق ()0ع16.15م لعرضها بأسلوب فكاهي. 

هل لاحظ أن هذا النمط يستخدم فقط لتحسين جماليات المخطط من خلال تأثيرات مرسومة باليد 
effects‏ drawn-andط.‏ ومع ذلك. لا يوصى باستخدامهني العروض التقديمية الرسمية والمنشورات 
وما إلى ذلك. 


اقرأ المزيد: الوثائق. 
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المقالة: 
https://avichawla.substack.com/p/python-one-liner-to-create-sketchy‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/xkcd-style-plots.ipynb 
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Pandas )3‏ 70 مرة سرع عن طريق تغییر سطر واحد فقط 
من التعليمات البرمجية 70 x Faster Pandas By Changing‏ 


Just One Line of Code 


ê Modin.py 


© © 0 Pandas.py 


0م 35 30035م 11100122 
2F‏ ## "لياوع . #8116" = data‏ 


df pd.read_csv(data) 
# 3.6 sec 


pd.concat([df for _ 
# 7.1 sec 


import modin.pandas as pd 


EIU. CSV HE 2M 


(03+3)با5ع_12630. 0م 


in range(20)]) 


data 


pd.concat([df for 


من الصعب العمل على مجموعات البيانات الكبيرةفي 2231028. هذاءفي بعض الأحيان. يتطلب الكثير من 
التحسين ويمكن أن يصبح مملاً مع نمو مجموعة البيانات بشكل أكبر. 


بدلاً من ذلك. جرب 1/10012. تقدم تحسينات فورية دون بذل جهد إضافي. قم بتغيير بيان الاستيراد 


واستخدمه مثل 4101 1711025 مع تسريع مهم. 


إقرأ المزيد: دليل 3ل2/10. 
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المقالة: 
https://avichawla.substack.com/p/70x-faster-pandas-by-changing-just‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Memory%20Optimization/70x-Faster- Pandas.ipynb 
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14 دليل تفاعلي لإتقان Pandas‏ دفعة واحدة An Interactive‏ 


Guide '1' Master Pandas In One Go 


df .shape 
len(df) 

4f .headC) 
df .tail(N) 

df .describe) 
df .infoO 


df .mean(O/df .medianO/ 
_ df .mode()/df . stdO ك‎ 


Top N Rows 


Bottom N Rows 


Arithmetic 
1/0 


Create 


Shape 
# Rows 


Print N rows 


DataFrame Stats 
Info 


Data Types df .dtypes 


df .col1.uniqueO 

df .col1.nuniqueO 

df .columns 

df .index 
4f .renane({"idx1":"newidx1"}) 
df .rename(lambda x:x+1) 


df .rename({"col1":"newcol1"}, axis=1) 


Unique 


Columns 


Index 


Index 


/ df.rename(lambda: x:x+"_col" axis=1) 


df .add_suffix('_col') 


Columns 


\ df .add_prefix('col_') 


Sort 
@ 
DF Subset 


Iterate 
_ Pivot 

Append 
@ 

Merge 


Delete 1 
Miscellaneous ١ 


Group 


Change 


Time 
Series 
© 


Convert 


Display 


Categorical 
Plot 


إليك خريطة ذهنية توضح طرق 212025 في صفحة واحدة. كم واحدة تعرف: 


٠ه‏ تحميل / حفظ Load/Save‏ 


Filter عامل تصفية‎ ٠. 


»ه معلومات إطار بيانات DataFrame info‏ 


Merge دمج‎ ٠ 
Time-series مخطط‎ 6 
10٤ السلسلة الزمنية‎ ٠ 


ع وغيرها الكثيرفي خريطة واحدة. 


ابحث عن الرسم التخطيطي الكامل هنا: خريطة ذهنية للباندا Pandas Mind Np‏ 
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5) اجعل التدوين النقطي أكثر قوة في بايثون غ50 ×١ake‏ 
Notation More Powerful in Python‏ 


© © هع‎ myclass.py 


class Square: 
def _ init__(self, 6655 : 
self._side = length 


Getter‏ ملل ا 
def side(self):‏ 
return self._side‏ 


aside.setter 3s Setter 
def side(self, length) : 
if lLength<O: 
raise ValueError("side cannot be negative") 
else: 
self._side = length 


>>> s = Square(10) 


>>> s.side # Getter 
10 


<<< 5.5106 = -2 # Setter (with dot) 
ValueError: Side cannot be negative 


يوفر التدوين النقطي 2062601 0( طريقة بسيطة وأنيقة للوصول إلى سمات مثيل وتعديلها. 

ومع ذلك» فمن الممارسات البرمجية الجيدة استخدام طريقة 1ع]اعع وإع)اءء لمثل هذه الأغراض. هذا 
لأنه يوفر مزيدًا من التحكمفي كيفية الوصول إلى السمات / تغييرها. 

للاستفادة من كليهمافي بايثون. استخدم 066013601 1637© 2107© . نتيجة لذلك» يمكنك استخدام 
التدوين النقطي ولا يزال لديك تحكم صريحفي كيفية الوصول / تعيين السمات. 
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المقالة: 
https://github.com/ChawlaAvi/Daily-Dose-of-Data‏ 
Science/blob/main/Python/Powerful-Dot-Notation.ipynb‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Powerful-Dot-Notation.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 777 
6( أروع اختراق The Coolest Jupyter Notebook J‏ 
Jupyter Notebook Hack‏ 

In [1]: import numpy as np 


In ]2[3 RP :arrav( [273 


array([1, 2, 3[( 


135 [37 2 
Out[3]: array([1l, 2, 3[( 


In [4]: Out[2] 


Out[4]: array([1, 2, 3[( 


152 [5]? | 521 


Out[5]: array([1, 2, 3[( 


in linkedin.com/in/avi-chawla 
هل نسيت يومًا تخصيص النتائج لمتغيرني إ٥٤رمنا[؟ بدلاً من إعادة حساب النتيجة عن طريق إعادة‎ 
تشغيل الخليةء إليك ثلاث طرق لاسترداد الإخراج.‎ 


1 استخدم الشرطة السفلية متبوعة بفهرس خلية الإخراج. 
2) استخدم قاموس 0116 أو _012 وحدد فهرس خلية الإخراج كمفتاح تإععا. 
المقالة: 
https://avichawla.substack.com/p/the-coolest-jupyter-notebook-hack‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Jupyter%20 Tips/Retrieve-Output- Three- Ways.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 223 


7 قم بإنشاء مخطط الفقاعي متحرك في بايثون 2 ٤خ4ءإ٣)‏ 
Moving Bubbles Chart in Python‏ 


Z Jupyter moving bubbles Last cheekpoint: 19 minutes ago (autoseved) 16 5 43 
Fie 6 ' : . 
E 3 


MEDIUM FAST 


in linkedin.com/in/avi-chawla 
هل رأيت واحدة من تلك الرسوم البيانية للنقاط المتحركة 2165© 5011205 عمزمه؟ إليك كيفية إنشاء‎ 
واحدفي بايثونفي ثلاثة أسطر فقط من التعليمات البرمجية.‎ 


يعد المخطط الفقاعي المتحرك 1216© 165 ن181 ماه" طريقة أنيقة لتصوير تحركات الكيانات عبر 
الوقت. باستخدام هذاء يمكننا بسهولة تحديد متى تظهر المجموعاتفي بياناتنا وفي أي حالة (حالات). 
لإنشاء واحدة. يمكنك استخدام "13610615". يجب أن يكون إدخالها إطار بيانات. يمثل الصف حالة 
عينةفي طابع زمني معين. 
المقالة: 
https://avichawla.substack.com/p/create-a-moving-bubbles-chart-in‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Moving-Bubbles.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 224 


:Skorch )118‏ استخدم AP!‏ earnا-Scikit‏ على نماذج 
Skorch: Use Scikit-learn API on PyTorch Py Torch‏ 
Models‏ 


model.py 


(nn.Module) : 
TREE CSE: 


forward(self, X): 


skorch NeuralNetClassifier 


model NeuralNetClassifier ( 
MyModel, 
11-0 .1 


nn.MSELoSssS 


linkedin "1‏ ليل 
skorch‏ هي مكتبة عالية المستوى ل 291١0201‏ توفر توافق 372ه50146-1.6 الكامل. بمعنى آخرء فهو 
يجمع بين قوة Py Tor‏ وأناقة متوعاءاة. 


وبالتالي» يمكنك تدريب نماذج 297601 بطريقة تشبه 50116-1.23:2: باستخدام دوال مثل الملائمة 
خ1 التنبؤ انلعم النتيجة ع5001. إلخ. 


باستخدام .skorch‏ يمكنك أيضًا وضع نموذج طء2ه'1 :لإ في خط أنابيب 51216212 وغير ذلك الكثير. 
بشكل عام تهدف إلى أن تكون مرنة مثل ۴1٥۲١1‏ بينما تتمتع بواجهة نظيفة مثل 51!162352. 


اقرأ المزيد: التوثيق. 


225 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/skorch-use-scikit-learn-api-on-pytorch‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Machine%20Learning/Skorch.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 226 


/90 تقليل استخدام الذاكرة لإطار بيانات 222025 بنسبة‎ )9 
Reduce Memory Usage Of A Pandas DataFrame By 
90% 


Ht df.shape: (10^7, 2) 
>>> df.A.dtype 
dtype('int64' ) 


## Rante: ]-2563, 2563-1[ 


QL AMANO, QE.A. Max)‏ <دد 
(160 ,1( 


>>> df .A.memory_usasge () 
7605 MB 


ORICA 5 df. astVpe(np .aRt8) 
HH Ranse: 128 27| 


>>> df.A.memory_usase() 


بشكل افتراضي» تقوم 78025 دائمًا بتعيين أعلى نوع بيانات ذاكرة لأعمدتها. على سبيل المثال» يحصل 
العمود ذو القيمة الصحيحة دائمًا على نوع البيانات 12664» بغض النظر عن نطاقه. 


لتقليل استخدام الذاكرة, قم بتمثيلها باستخدام نوع بيانات محسن» وهو ما يكفي لتوسيع نطاق القيمقي 
أعمدتك. 


اقرأ هذه المدونة لمزيد من المعلومات. تفاصيل العديد من التقنيات لتحسين استخدام الذاكرة من إطار 
بيانات 222025 . 


227 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 


https://avichawla.substack.com/p/reduce-memory-usage-of-a-pandas 


dataframe 


الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Memory%200Optimization/Pandas-Optimize- 
Datatype.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 228 


۸١ طريقة أنيقة لأداء مهام إيقاف التشغيل في بايثون‎ )0 
Elegant Way To Perform Shutdown ‘Tasks in Python 


© © هع‎ my_file.py 


import atexit 
Qatexit.resister 
def final funetion (J: 
print (COMPLETED EXECUTION!) 
fOr 1 111 ranse(5): 


print (f"RUMm = 


© © Terminal 


$ python my_file.py 


num 
num 


num 
num 
num 
COMPLETED EXECUTION! 


غالباني نهاية تنفيذ البرنامج» نقوم بتنفيذ بعض المهام الأساسية مثل حفظ الكائنات وطباعة السجلات 
وما إلى ذلك. 

لاستدعاء طريقة مباشرة قبل إغلاق المترجم الفوري.ء قم بتزيينها باستخدام المصمم 
.@atexit.register decorator‏ 

الشيء الجيد هو أنه يعمل حتى إذا تم إنهاء البرنامج بشكل غير متوقع. وبالتالي» يمكنك استخدام هذه 
الطريقة لحفظ حالة البرنامج أو طباعة أي تفاصيل ضرورية قبل توقفه. 


اقرأ المزيد: التوثيق. 


229 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/an-elegant-way-to-perform-shutdown‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/atexit-register-decorator.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 230 


1 ] تصور اتجاهات بحث عاع200©) لعام 2022 باستخدام 
بايثون Visualizing Google Search Trends of 2022 using‏ 
Python‏ 


sns.FacetGrid(df_trend, 
" 


TT < define grid 
plot.map(plt.plot, "Date", "Trend") 0 El) plot to grid 


Search Trends: 2022 
Ukraine 


a 
IPL RA 
Twitter Takeover "1 5 Mm 


Johnny Depp a 


WST 


JAN FEB MAR APR MAY JUN JUL AUG SEP OCT NOV DEC 
in linkedin.com/in/avi-chawla 


إذا كانت بياناتك تحتوي على العديد من المجموعات» فإن تصور توزيعها معًا يمكن أن يؤدي إلى إنشاء 
مخططات مزدحمة. هذا يجعل من الصعب تصور الأنماط الأساسية. 


بدلاً من ذلك. ضعفي اعتبارك تخطيط التوزيع عبر المجموعات الفردية باستخدام 1206603110. يتيح لك 
هذا مقارنة توزيعات مجموعات متعددة جنا إلى جنب ومعرفة كيف تختلف. 


231 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


كما هو موضح أعلاه. يتيح لنا ۴4٥6۲6۲1۵‏ أن نرى بوضوح كيف اتجهت مصطلحات البحث المختلفة 
عبر عام 2022. 


ملاحظة. لقد استخدمت مستودع اتجاهات البحث العام لجلب بيانات الاتجاه 0262 6010. 
المقالة: 
https://avichawla.substack.com/p/visualizing-google-search-trends‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/FacetGrid.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 232 


C4۵ A۸ قم بإنشاء مخطط شريط السباق في بايثون‎ ]2 
Racing Bar Chart In Python 


17) df.head() 


Belgium Chins France Germany Iran Italy Netherlands Spain USA United Kingdon f 


1275 3294 14681 1490 11198 7418 
1444 3452 152 1656 11947 5357 
1584 3603 157 1770 12641 9489 
1810 3739 16523 1874 13341 10783 
2016 3872 127 2108 14045 12798 


[91 ber.bar_chart_race(df=df,t{tle='COVID-19 Deaths by Country’) 


COVID-19 Deaths by Country 


Netherlands E 1.874 
ا ل‎ 2020-04-06 
Belgıum Ea 1.632 
0 


2.500 5.000 7.500 10,000 12,500 15,000 17,500 


chawl 


هل رأيت أحد مخططات شريط السباق كاتهطكء racing bar‏ هذه؟ إليك كيفية واحدفي بايثونني 
سطرين فقط من التعليمات البرمجية. 
عادةً ما يتم استخدام مخطط شريط السباق لتوضيح تقدم القيم المتعددة بمرور الوقت. 
لإنشاء واحدةء يمكنك استخدام مكتبة ."bar-chart-race"‏ 
يجب أن يكون مدخلاته عبارة عن إطار بيانات 2212035 حيث يمث لكل صف طابعًا زمنيًا واحدا. يحتوي 
العمود على القيم المقابلة لفئة معينة. 
اقرأ المزيد: التوثيق. 
المقالة: 
https://avichawla.substack.com/p/create-a-racing- bar-chart-in-python‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Race-Bar-Chart.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


Speed-up NumPy مرات مع‎ 5 Pandas Apply تسريع‎ (123 
Pandas Apply 5x with NumPy 


© © Pandas Apply 


def assign_clLass (num) : 0 19 80 39 36 
if num<10: 
return "Class A" 
if num<50: 
TetUrn Class 85” 
TetUrn Class 27 


df.A.apply(assisn_class) 
# 1.02 5 2 20.5 MS per Loop 


© © NumPy Select 


condlList E 0275812186 OCLC A <50 


TeSUlELIST = |] Class A. << "61239595 8!" | 


Mp. SeleCE(CONOLASE, 126501635156. 68595 CY) 


8 O.20 5 E 714 MS per 10 


in 
نميل إلى استخدام طريقة ()رامم هة‎ 25 conditional columns أثناء إنشاء أعمدة شرطية‎ 


طوال الوقت تقرييًا. 


ومع ذلك فإن ()رام مه في 22025 ليست سوى حلقة متألقة. نتيجة لذلك فإنه يخطئ الهدف الكامل 


من التوجيه 0112261012]أ0ع77. 


بدلاً من ذلك يجب عليك استخدام طريقة ()28.561661 لإنشاء أعمدة شرطية. إنها تقوم بنفس الوظيفة 
ولكنها سريعة للغاية. 


يتم تمرير الشروط والنتائج المقابلة لها كأول وسيطين. الوسيطة الأخيرة هي النتيجة الافتراضية. 


234 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


اقرأ المزيد هنا: مستندات /[1111111. 
المقالة: 
https://avichawla.substack.com/p/speed-up-pandas-apply-5x-with-numpy‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Pandas- Apply- With-Numpy-Select.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 255 


4 ) أداة على الإنترنت بدون كود لاستكشاف وفهم الشبكات 
العصبية A No-Code Online Tool To Explore and‏ 
Understand Neural Networks‏ 


Visit: playground.tensorflow.org 


Neural Network 


يمكن أن تكون الشبكات العصبية 1266570115 71611121 مخيفة للمبتدئين. أبضًا 9 يوفر التجريب برمجيًا 
ما يكفي من الفهم الحدسي عنها. 
بدلاً من ذلك. جرب .TensorFlow Playground‏ تسمح لك واجهة المستخدم الأنيقة ببناء الشبكات 
العصبية وتدريبها وتصورها دون أي كود. 
بش شات يمك ت أل يرق كيف فمل اقات العسية رك فور اللات الات 
hyper 5‏ المختلفة على أدائها. هذا يجعلها مفيدة بشكل خاص للمبتدئين. 
جرب هنا: .TensorFlow Playground‏ 
المقالة: 
https://avichawla.substack.com/p/a-no-code-online-tool-to-explore‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Coo0l1%20T'ools/Understand-Neural-Net.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 236 


What Are ما هي طرق الكلاس ومتى يتم استخدامها؟‎ )5 
?Class Methods and When To Use Them 


using عا ا‎ Rectangle. from_square (5) 
classmethod 


.width) 
.height) 


in linkedin.com/in/avi-chawla 


طرق الفئة ول هطع 01355)» كما يوحي الاسم مرتبطة بالفئة (الكلاس) وليس بمثيلاتها وع20ماقط1. 
إنها مفيدة بشكل خاص لتوفير واجهة بديلة لإنشاء المثيلات. 
علاوة على ذلك. يمكن استخدامها أيضًا لتحديد دوال المرافق المرتبطة بالفئة بدلاً من مثيلاتها. 


على سبيل المثال» يمكن للمرء تحديد طريقة فئة ترجع قائمة بجميع مثيلاتها. استخدام آخر يمكن أن 
يكون لحساب إحصائية على مستوى الفئة بناءً على الحالات. 


لتحديد طريقة الفئةفي بايثون. استخدم decorator‏ 613551121611100 . نتيجة لذلك» يمكن استدعاء 
هذه الطريقة مباشرة باستخدام اسم الفئة. 


المقالة: 
https://avichawla.substack.com/p/what-are-class-methods-and-when-to‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/class-methods.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 237 


Make Sklearn أسرع 20 مرة‎ Sklearn KMeans اجعل‎ (16 
KMeans 20x times faster 


sklearn.py 


x_train shape: 
(500000, 1024) 


sklearn.cluster KMeans 


IEEE KMeans(8).fit(x_train) 


faiss.py 


~20x Faster 


kmeans (means 
kmeans.train(x_t 


in |1601 com/in/avi-chawla 


تستخدم خوارزمية 1510162135 بشكل شائع لتجميع usterاc‏ البيانات غير المسماة .unlabeled data‏ 
ولكن مع مجموعات البيانات الكبيرة. يستغرق scikit-Learn‏ الكثير من الوقت للتدريب والتنبؤ. 
لتسريع برنامج 135 استخدم Faiss‏ من .Facebook AI Research‏ يوفر بحمًا وتجميعًا أسرع 
في أقرب الجيران. 


يستخدم 12155 "الفهرس المقلوب :1206 127761660 ". وهي بنية بيانات محسينة لتخزين وفهرسة نقاط 
البيانات. وهذا يجعل إجراء التجميع فَعَّالًا للغاية. 
بالإضافة إلى ذلك يوفر وونه1 موازاة ودعم [621. مما يحسن أداء خوارزميات التجميع الخاصة به. 
اقرأ المزيد: 6ن1]11©. 
المقالة: 
https://avichawla.substack.com/p/speed-up-numpy-20x-with-numexpr‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data-Science/blob/main/Run- 
time%200Optimization/Faiss-vs-Sklearn-KMeans.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


Speed-up Numexpr مرة مع‎ 20 NumPy تسريع‎ (127 
NumPy 20x with Numexpr 


import numpy as np 
import numexpr as ne 


a = np.random.random(10**7) 
b = np.random.random( 10**7) 


š$timeit np.cos(a) + np.sin(b) 


142 ms + 257 us per loop 


stimeit ne.evaluate("cos(a) + sin(b)") 


32.5 ms + 229 us per loop ~5x Faster 


linkedin.com/in/avi-chawla‏ ما 
تقدم ردصن" بالفعل عمليات موجهة محسنة وسريعة. ومع ذلك» فهو لا يدعم التوازي 2121113552م. 
يوفر هذا مجالًا إضافيًا لتحسين وقت تشغيل ۲y‏ ں×. 


للقيام بذلك» استخدم إم×٥دصن.‏ يتيح لك تسريع العمليات الحسابية العددية من خلال التجميع 
متعدد الخيوط 11111-16201528 والتجميعني الوقت المناسب 1156-12-161526[. 


اعتمادًا على مدى تعقيد التعبير» يمكن أن تتراوح عمليات التسريع من :0.95 و ×20. عادة من المتوقع 
أن يكون ×5-×2. 


اقرأ المزيد: التوثيق. 
المقالة: 
https://avichawla.substack.com/p/speed-up-numpy-20x-with-numexpr‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/NumPy/Speed-up-NumPy.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 2039 


A Lesser- Pandas ميزة أقل شهرة لتطبيق طريقة في‎ ) 8 
Known Feature of Apply Method In Pandas 


min_max (row) : 
max (row), min(row) 


df .apply (min_max, 


15 = 24( Series 
۳ کے‎ 


df.apply (min_max, 


in lMKedin COM/in/avi-chawla 
بعد تطبيق طريقة على إطار بيانات 13206 102621. غالا ما نرجع قيمًا متعددة على هيئة صف عام ناا.‎ 
يتطلب هذا خطوات إضافية لعرضه مرة أخرى كأعمدة منفصلة.‎ 


بدلاً من ذلك. باستخدام الوسيطة 6م67 151116 يمكنك التحكمفي الشكل ونوع الإخراج. حسب الرغبة 
يمكن أن يكون الإخراج إما إطار بيانات أو سلسلة وعتزع5. 


المقالة: 
https://avichawla.substack.com/p/a-lesser-known-feature-of-apply-method‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Apply-DataFrame- Output.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 240 


An Elegant Way طريقة أنيقة لأداء ضرب المصفوفة‎ 9 
T'o Perform Matrix Multiplication 


numpy np 


np.matmulL(a, np.matmul(b, Cc) ( 


in linkedin.com/in/avi-chawla 


يعد ضرب المصفوفة 11626102م21116ط نة" عملية شائعةفي التعلم الآلي. ومع ذلك فإن تسلسل 
عمليات الضرب المتكررة باستخدام الدالة 1036120101 يجعل الكود مشوشًا وغير قابل للقراءة. 
إذاكنت تستخدم ردصن فيمكنك بدلاً من ذلك استخدام عامل التشغيل @ للقيام بنفس الشيء. 
المقالة: 
https://avichawla.substack.com/p/an-elegant-way-to-perform-matrix‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/NumPy/Matrix- Multiplcation- Operator.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 241 


19) قم بإنشاء أطار بيانات Pandas‏ من Create Dataclass‏ 


Pandas DataFrame from Dataclass 


define 
2265 125 03355 


points [Point(5, 5), 
o 4( , 
Point(2, 3)] 


list of pd.DataFrame (points) 
65 x_loc y_loc 


6 5 5 
objects 7 


in linkedin.com/in/avi-chawla 

غالبا ما يتم إنشاء إطار بيانات 2312028 من قائمة بايثون 1156 2(7[0» وقاموس 2ص ەناءك› من خلال 
قراءة الملفات» الخ. ومع ذلك. هل تعلم أنه يمكنك أيضًا إنشاء إطار بيانات ٥4ء032۴‏ من فئة 
Dataclass؟‏ 
توضح الصورة كيف يمكنك إنشاء إطار بيانات من قائمة كائنات 02]221255. 

المقالة: 

https://avichawla.substack.com/p/pandas-df-from-dataclass 
الكود:‎ 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Pandas-df-From-Dataclass.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 242 


Hide Dataclass إخفاء السمات أثناء طباعة كائن من‎ 0 
Attributes While Printing A Dataclass Object 


0205 


Student ("Jane", "2 


t (Jane) 


name: st 


Attribute 
hidden Jane Student ("Jane", "27HD") 
in print 


print (Jane) 


in Kedi COM UiN/avi-chawla 


بشكل افتراضي» تقوم 02621255 بطباعة جميع سمات الكائن الذي تم الإعلان عنه أثناء التهيئة. 
ولكن إذا كنت تريد إخفاء بعض السمات المحددة» فقم بالإعلان عن ©1215 = 1ع"اني حقلهاء كما هو 
موضح أعلاه. 
المقالة: 
https://avichawla.substack.com/p/hide-dataclass-attributes‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/hide-dataclass-attributes.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


1 القائمة: الصف :: المجموعة: ؟غ56 :: ع1من1' : List‏ :7 


my_set 


my_dict {my_set: "A set"} 


frozenset.py 


my_set rozenset({1, 2, 3}) 


my_dict {my_set: "A frozen set"} 


my_dict [my_set] 
"A frozen set" 


in linkedin.com/in/avi-chawla 
تتطلب القواميس sعنعهمه ناء في بايثون أن تكون مفاتيحها غير قابلة للتغيير 11011211]8516. نتيجة‎ 
.51116216 لذلك, لا يمكن استخدام المجموعة ]56 كمفاتيح لأنها قابلة للتغيير‎ 


ومع ذلك. إذا كنت تريد استخدام مجموعة, ففكرفي إعلانها على أنها غعومء202. 


إنها مجموعة غير قابلة للتغيير» مما يعنى أنه لا يمكن تغيير عناصرها بعد إنشائها. لذلك. يمكن استخدامها 
بأمان كمفتاح للقاموس. 


المقالة: 
https://avichawla.substack.com/p/frozenset‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/frozenset.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 244 


Difference NumPy في‎ Matmul 9 Dot الفرق بين‎ 2 
Between Dot and Matmul in NumPy 


@ dot.py 


> a:np.array # Shape 


>>> b:np.array 


>>> np.dot(a, b) # Shape: (a,b,c,P,q,z) 


û matmul.py 


>>> a:np.array # 


>>> b:np.array # 


>>> np.matmul(a, b) 


in 
تنتج الطرق ()22.52212111 و ()40.ص1 نفس الإخراج للمصفوفات ثنائية الأبعاد (21 (و أحادية‎ 
الابعاد (11). هذا يجعل الكثيرين يعتقدون أنهم متماثلون ويمكن استخدامهم بالتبادل» لكن هذا ليس‎ 


يقة ()غ+40.م2 تدور حول المتجهات الفردية 15م]ء76 1201101121 (أو المصفوفات «11). 
وبالتالي» فإنه يحسب حاصل الضرب النقطي 6001106 106 لجميع أزواج المتجهاتفي المدخلين. 
الطريقة .np.matmul()‏ كما يوحي الاسم مخصصة للمصفوفات .matrices‏ وبالتاليء فإنه يحسب 
ضرب المصفوفة 121111511626101 27221122 للمصفوفات المقابلةفي المدخلين. 


245 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/dot-and-matmul-difference‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/NumPy/Dot-and-Matmul.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 246 


3 قم بتشغيل ]5 في ءارمس[ لتحليل إطار بيانات 
Run SQL in Jupyter To Analyze A Pandas Pandas‏ 


DataFrame 


Filter-Pandas.ipynb 
Pandas 


df[df.city "New Delhi"] 


Filter-SQL.ipynb 


DuckDB 


df 
city 'New Delhi'; 


in linkedin.com/in/avi-chawia 
يوفر 2312035 بالفعل مجموعة واسعة من الدوال لتحليل البيانات المجدولة 0262 إوالuطها. ومع ذلك‎ 
قد تكون هناك مواقف يشعر فيها المرء بالراحة عند استخدام 501 على بايثون.‎ 


باستخدام .0ucK58‏ يمكنك تحليل 22۴2 Pandas‏ باستخدام بناء جملة [500في yer‏ مدال 
دون أي فرق وقت تشغيل مهم. 
اقرأ الدليل هنا للبدء: المستندات. 
المقالة: 
https://avichawla.substack.com/p/sql-in-jupyter‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/SQL-in-Jupyter.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 247 


4 إعادة هيكلة الكود الآلي مع المصادر Automated Code‏ 
Refactoring With Sourcery‏ 


» my_code.py 


set_my_var (condition) : 
condition: 
my_var = 1 


my_Var = 2 


my_var 


Command Line 


$ sourcery review --in-place my_code.py 


After » my_code.py 
Refactoring 


9 set_my_var (condition) : 
اع‎ Tif 00 


in linkedin.com/in/avi-chawla Sour ce 
تعد إعادة بناء قاعدة الكودات 256<اع004» g«نإەRefact مهمة كبيرة ولكنها تستغرق وقتا طويلاً. علاوة‎ 
على ذلك.ني بعض الأحيان. قد يرتكب المرء أخطاء أثناء إعادة البناء دون علمه.‎ 


يستغرق هذا وقتا إضافيًا للاختبار ويصبح مملاً مع المزيد من إعادة البناء خاصة عندما تكون قاعدة 
التعليمات البرمجية كبيرة. 

بدلاً من اتباع هذا النهج» استخدم :زع50056. إنها أداة إعادة هيكلة آلية تجعل التعليمات البرمجية 
الخاصة بك أنيقة وموجزة وبايثونيةفي لمح البصر. 

باستخدام .Sourcery‏ يمكنك إعادة بناء الكود بعدة طرق. على سبيل المثال» يمكنك إعادة صياغة 
السكريبتات من خلال سطر الأوامر, كمكون إضافي ل 11(5آفي 0006 175 ومسهط2:0: إلخ. 


اقراً مدونتي الكاملة على Sourcery‏ هنا: Medium‏ . 


248 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/automated-code-refactoring-with-sourcery‏ 
الكود: 

https://github.com/ChawlaAvi/Daily-Dose-of-Data 


Science/blob/main/Terminal/Sourcery.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 229 


5 2016 : إضافة سمات إلى تهيثة عملية نشر كائن 
Add Attributes To A 10201355 :Post init Dataclass‏ 
Object Post Initialization‏ 


لام.026361355 


03836135565 1 12265 
202225 


student_id:str 
marks : float 


(self): 
narks>30: 
self .srade "pass" 


self . 6 "Fail" 


Peter studentMarks ("B20", 43) 


print (Peter. grade) 


in linkedin.com/in/avi-chawla 
بعد تهيئة كائن فئة» غالبًا ما نقوم بإنشاء سمات مشتقة من المتغيرات الموجودة.‎ 


للقيام بذلكفي فئات البيانات 5ع02621255, يمكنك استخدام طريقة __11216_+205_. كما يوحي 


الاسم» يتم استدعاء هذه الطريقة بعد طريقة _ 12316 __. 
يكون هذا مفیداً إذا كنت بحاجة إلى إجراء عمليات إعداد إضافية على مثيل 03621355 الخاصة بك. 
المقالة: 
https://avichawla.substack.com/p/dataclass-post-init‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/dataclass-post-init.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 250 


Simplify Your Functions تبسيط دوالك بدوال جزئية‎ ) 6 
With Partial Functions 


quadratic (xX, 


partial_function.py 


functoolLs partial 


quadratic_c1 partial(quadratic, 1) 


quadratic_c1(x=1, 3-4, b=5) 


in| lIMKedIN COm/in/avi-chawla 
عندما تأخذ دالتك 111201011 العديد من الوسيطات 2181111261265. قد يكون من الجيد تبسيطها باستخدام‎ 


دوال جزئية partial functions‏ . 
يتيحون لك إنشاء إصدار جديد من الدالة مع بعض الوسيطات التي تم إدخالها على قيم محددة. 


يمكن أن يكون هذا مفيدَاني تبسيط التعليمات البرمجية الخاصة بك وجعلها أكثر سهولة للقراءة وإيجارًً. 
علاوة على ذلك يساعدك أيضًا على تجنب تكرار نفسك أثناء استدعاء الدوال. 


المقالة: 
https://avichawla.substack.com/p/partial-functions‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/partial-functions.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 1 


N 
O1 


Pandas عندما لا يجب استخدام طريقة 440ء1 في‎ ) 7 
When You Should Not Use the headO0 Method In 


Pandas 


Name Marks 


Ignores 
repeated 
ENES 


Returns 
Duplicate 
values 


E 


in linkedin.com/in/avi-chawla 


غالبًا ما يسترد المرء 15[ من الصفوف من 102213226 231035 المصنفة باستخدام طريقة ()2620. 


إذا كانت بياناتك تحتوي على قيم مكررةء فلن تأخذ ()630ئآفي الاعتبار ذلك وستعيد فقط الصفوف 
الأولى. 
إذاكنت تريد مراعاة القيم المتكررة. فاستخدم +11121:865 (أوغوة22211كم) بدلا من ذلك. هناء يمكنك 
تحديد السلوك المطلوب للقيم المكررة باستخدام المعلمة م٠هk.‏ 
المقالة: 
https://avichawla.substack.com/p/nsmallest-and-nlargest‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/nsmallest-and-nlargest.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 2052 


DotMap: A بديل أفضل لقاموس بايثون‎ :DotMapم‎ 38 
Better Alternative to Python Dictionary 


» dotmap.py 


Add using 
dot notation 
students = DotMap() 


students. john. id T2AL 7 
students. john.enslLish 45 


students.mary. id 2B 
students.mary.english = 49 


dotmap DotMap 


students.dave.id TC. 
students.dave.enslish = 34 


dotmap-print.py‏ ه 


Pretty 


people.pprint () 


{'dave': {'english': 3 "100: 12 
‘Sohn: 215: 4 "505:5 IDA, 
Marv 602154: 49, ids: IBI} 


in| linkedin .coml/in/avi-chawla 


قواميس بايثون 0166101131165 :297101 رائعة. لكن لها العديد من القيود. 

من الصعب إنشاء بيانات هرمية ديناميكية. كما أنها لا توفر التدوين النقطى 20426101 اهل المعتمد على 
نطاق واسع لقيم الوصول. 

بدلاً من ذلك | 0 م .DotMap‏ يتصرف مثل قاموس بايثون ولكنه يعالج أيضًا القيود المذكورة أعلاه. 


ما هو أكثر من ذلك» أنه يحتوي أيضًا على طريقة طباعة جميلة مضمنة لعرضه قاموس / 5011[ لتصحيح 
أخطاء الكائنات الكبيرة. 


قرا المزيد: جاب1)11©. 


253 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/dotmap -a-better-alternative-to-dict‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/DotMap-Better-Dictionary.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 254 


9 منع الاستيرادات السيئة مع اله في بايتون غصعتعم 
inPython___all__Wild Imports With‏ 


my_functions.py 


al = [funelr, "70062 [ 
func1() : FR 


"Function 1" 
TURE): 
لاع‎ "EUNEEILON 22 


func3() : 
u "Function 3 


Only 
func1 and func2 
imported 


module.py 


my_functions i 


func1() 
"EUNCTLION 17 


func2() 
"Function 2" 


func3() 
NameError: name 'func3' t defined 


inl linkedin .com/in/avi-chawia 
ممارسة برمجة سيئة. ومع ذلك. إليك كيفية‎ (from module import *( تعتير عمليات الاستيراد‎ 
منعه إذا قام شخص ما بذلك بشكل غير مسؤول أثتاء استخدام التعليمات البرمجية الخاصة بك.‎ 


فى الوحدة النمطية الخاصة بك يمكنك تحديد الدوال / الفئات / المتغيرات القابلة للاستيرادفي 
لله . نتيجة لذلك. عندما يقوم شخص ما بعملية استيراد سيئة» فإن بايثون ستستورد الرموز المحددة 


يمكن أن يكون هذا مفيدًا أيضاف نقل الرموز الموجودةفي الوحدة النمطية الخاصة بك إلى أن تكون خاصة. 


255 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/prevent-wild-imports-with- all‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Save- Wild-imports.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 256 


0) ثلاث نصائح أقل شهرة لقراءة ملف 5597© باستخدام 
Three Lesser-known Tips For Reading a CSV Pandas‏ 
File Using Pandas‏ 


pd.read_csv("data.csv", 


Read specific pd.read_csv("data.csv", 
HAS. CES) 


columns 


Skip first 
١ ر‎ 10 rows 


pd.read_csv("data.csvV", 


pd.read_csv("data.csvV", Skip 1st row 
1, 51 O 


in linkedin.com/in/avi-chawla 


فيما يلي ثلاث نصائح مفيدة للغاية ولكنها أقل شهرة لقراءة ملف ع1 C8۷‏ مع 222025: 
1. إذاكنت تريد قراءة الصفوف القليلة الأولى فقط من الملف. فحدد المعلمة 1110185 
1. لتحميل بعض الأعمدة المحددة. حدد المعلمة 1156©015. 
2 إذاكنت تريد تخطي بعض الصفوف أثناء القراءة فقم بتمرير المعلمة 5151[1:018/5. 
المقالة: 
https://avichawla.substack.com/p/three-lesser-known-tips-for-reading‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/3-Read-CSV-Features.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات ا 


N 
o1 


The Best Pandas 1)أفضل تنسيق ملف لتخزين إطار بيانات‎ 
File Format 'T'o Store A Pandas DataFrame 


CSV.py 


df.to_csv("file.csvV") 


Parquet.py Feather.py 


df .to_parquet ("file .parquet") df.to_feather("file. feather") 


Pickle.py 


df.to_pickle("file.pickle") 


in linkedin.com/in/avi-chawla 

في الصورة أعلاه. يمكنك العثور على مقارنة وقت التنفيذ لتخزين 1032110226 222025 بتنسيقات 
ملفات مختلفة. 
على الرغم من أن تنسيق 0577 هو تنسيق معتمد على نطاق واسع» إلا أنه أبطأ تنسيقفي هذه القائمة. 
وبالتالى» يجب تجنب ملفات 0517 إلا إذا كنت ترغبفي فتح البيانات خارج بايثون (في 1[ع28<0: على 
سبيل المثال). 
اقرأ المزيدفي مدونتي: ةنانفل 2/]6. 

المقالة: 

https://avichawla.substack.com/p/the-best-file-format-to-store-a-pandas 
الكود:‎ 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/CSV -Feather- Parquet-Pickle.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 258 


PySnooper مم‎ Ia تصحيح الأخطاء أصبح‎ )2 
Debugging Made Easy With PySnooper 


in likedin.com/in/avi-chawla 
لتصحيح أخطاء كود بايثون الخاص بك جرت‎ print بدلا من | ستخدام العديد من عبارات‎ 
.PySnooper 


باستخدام سطر واحد فقط من التعليمات البرمجية. يمكنك بسهولة تتبع المتغيراتفي كل خطوة من 
خطوات تنفيذ التعليمات البرمجية الخاصة بك. 
اقرأ المزيد: المستودع. 
المقالة: 
https://avichawla.substack.com/p/debugging-made-easy-with-pysnooper‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Debugging/pysnooper-debugging.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 259 


3 الميزة الأقل شهرة لطريقة الدمج في 2025ة2 -2ءووع.]1 
Known Feature of the Merge Method in Pandas‏ 


pd.merse(name_df, rewards_df, 
مم‎ TLD 
outer, 


Cust_ID Name Rewards 


Joe NaN 
ات‎ 
26 
70 


in linKedin.com/in/avi-chawla 


أثناء دمج Pandas jD ataFrames‏ يمكن أن يكون تتبع مصد ر كل صف في الإخراج مفيدا للغاية. 
يمكنك القيام بذلك باستخدام الوسيطة 1120162601 للطريقة ()©12618. ونتيجة لذلك, يقوم بزيادة 
المقالة: 
https://github.com/ChawlaAvi/Daily-Dose-of-Data‏ 
Science/blob/main/Pandas/Pandas-Merge-Indicator.ipynb‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Pandas-Merge-Indicator.ipynb 
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The Best Pandas JضApply)0 أفضل طريقة لاستخدام‎ 4 
Way to Use ApplyO in Pandas 


sS um_Of _IOW (OW) : 


sum (row) 


Pandas-Apply.py Swifter.py 
df .apply (sum_of_IOW, 
9 


df.swifter.apply (sUMm_Of_IOW, 
1( 


Pandarallel.py parallel-pandas.py 


df.parallel_apply (sum_Of_IOW, 
0 1) 


df .p_apply (sum_Of_IOW, 
57 


Mapply.py 


df .mapply (suUm_Of_IOW, 
1 10) 


in| linkedin com/in/avi-chawla 

تظهر الصورة أعلاه مقارنة وقت التشغيل للمكتبات مفتوحة المصدر الشائعة التي توفر دعم مواز ل 
.Pandas‏ 
يمكنك العثور على روابط هذه المكتبات هنا. أيضًاء إذا كنت تعرف أي مكتبات أخرى مماثلة مبنية على 
25 فقم بنشرهاني التعليقات أو الرد على هذا البريد الإلكتروني. 

المقالة: 

https://avichawla.substack.com/p/the-best-way-to-use-apply-in-pandas 
الكود:‎ 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Best-Pandas-Apply.ipynb 
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5 أصبح تصحيح أخطاء شبكة التعلم العميق أمرا سهلا 
Deep Learning Network Debugging Made Easy‏ 


a network.py 


tsensor 


tsensor.explLain() : 
i in range(n_batches) : 
batch > XEL 
7 torch.matmul(W, batch.T) b 


batch = X 1 Output 


Oo 1 


f 
<float32> <float32> 


Y ع‎ torch.matmul( W , batch.T) + 
10 10 


<float32> <float32> <float32> <float32> 


in linkedin.com/in/avi-chawla 
(أو المتجهات 760]015؟/ المصفوفات وع 1٣2ص )في‎ tensors يمكن أن تكون محاذاة شكل الموترات‎ 
الشبكة أمرًا صعبّافي بعض الأحيان.‎ 


مع نمو الشبكةء من الشائع فقدان مسار الأبعادفي تعبير معقد. 

بدلا من طباعة أشكال الموتر بشكل صريح لتصحيح الأخطاء استخدم .rensorSensor‏ یولد تصورًا 
أنيقًا لكل بيان يتم تنفيذه داخل الكتلة الخاصة به. هذا يجعل تتبع الأبعاد سهلاً وسريعًا. 

فى حالة وجود أخطاء. فإنه يعزز رسائل الخطأ الافتراضية بمزيد من التفاصيل المفيدة. يؤدي هذا إلى 
زيادة سرعة عملية التصحيح. 

اقرأ المزيد: التوثيق. 
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المقالة: 
https://avichawla.substack.com/p/deep -learning-network-debugging-made‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Sklearn/Debug-Network.ipynb 
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Lovely-NumPy ھدaختwl!Nun¬Py )لا تطبع مصفوفات‎ 6 
Don't Print NumPy Arrays! Use Lovely- بدلا من ذلك.‎ 
.NumPy Instead 


<<< array = .random.rand(... 
>>> array 
tensor([[0. 

[0.66 

[0.5 

[0.06 


ê lovely_numpy.py 


from Lovely_numpy import lo 


>>> array = np.random.rand(... 
<<< lo(array) 

array[10, 20] n 

xXE[0.0, 1.0] pu=0. 


>>> array = np.zeros(... 
>>> lo(array) 
array[10] all_zeros 


>>> array = # VWıth 

>>> lo(array) 

array[10, 20] 

xE[0.0, 1.0] pu=0 0.3 +Inf! NaN! 


in 

غالبًا ما نطبع المصفوفات الخام غير الدقيقة أثناء التصحيح ع«نععدطءل. لكن هذا النهج ليس مفيداً 
جدًا. هذا لأن الطباعة لا تنقل الكثير من المعلومات حول البيانات التى تحتفظ بهاء خاصة عندما تكون 
المصفوفة كبيرة. 

بدلاً من ذلك استخدم 'ط10776137-1212. بدلاً من عرض المصفوفات الأولية» يقوم بطباعة ملخص 
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كما يوضح أيضًا ما إذا كانت المصفوفة العددية تحتوي على قيم 71211 وگه[ وما إذاكانت تحتوي على 
أصفارء وغير ذلك الكثير. 


ملاحظة. إذا كنت تعمل مع الموترات 725015ع]: فيمكنك استخدام 25015 '107713. 
اقرأ المزيد: التوثيق. 
المقالة: 
https://avichawla.substack.com/p/dont-print-numpy-arrays-use-lovely‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/NumPy/Lovely-Numpy.ipynb 
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Performance 3.10 مقارنة أداء بايثون 3.11 وبايثون‎ )7 
Comparison of Python 3.11 and Python 3.10 


» calc_pi.py 


approx (n_terms) : 


fib(N) = fib(N-1) + 


python3.11.py‏ م 


fib (40) 


pi_approx (10*#*%6) 


in ılinkedin.com/in/avi-chawla 8‏ 
تم إصدار 3.11 297:50 مؤخرّاء ووفقا للإصدار الرسمي» من المتوقع أن تكون أسرع بنسبة 60-10,/ 
من 3.10 Python‏ . 


أجريت بعض تجارب قياس الأداء الأساسية للتحقق من تعزيز الأداء.في الواقع» 3.11 05ط]2(7 أسرع 
على الرغم من أنه قد يميل المرء إلى الترقيةفي أسرع وقت ممكن. إلا أن هناك بعض الأشياء التي يجب أن 
تعرفها. اقرا المزيد هنا. 
المقالة: 
https://avichawla.substack.com/p/performance-comparison-of- python‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Python-3.11-Benchmark.ipynb 
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View Jupyter Notebook عرض الوثائق في‎ (148 


Documentation in Jupyter Notebook 


In 11: 1 import pandas as pd 
executed in 1.28s, finished 15:24:30 2022-12-06 


3 E 1 1 pd.DataFrame() # Shift-Tab 


In [ [: Init signature: 


pd.DataFrame( 
data=None, 
index: 'Axes | None' = None, 
columns: 'Axes | None' = None, 
dtype: 'Dtype | None' = None, 
copy: 'bool | None' = None, 

1 

| Docstring: 


___Tuınimane innد1‎ cizamııtahls nntontisدllwu‎ hatornnananııe +tahıılar دغخحام‎ 


in linkedin.com/in/avi-chawla 
أثناء العملفي إ#ارمال من الشائع أن ننسى معلمات الدالة وزيارة المستندات الرسمية (أو‎ 
ومع ذلك» يمكنك عرض الوثائقفي النوتبوك نفسه.‎ .)Stackoverflow 


الضغط على 51166-731 يفتح لوحة التوثيق. هذا مفيد للغاية ويوفر الوقت حيث لا يتعين على المرء 
فتح المستندات الرسميةفي كل مرة. 
تعمل هذه الميزة أيضًا مع دوالك المخصصة. 
قم بمشاهدة نسخة فيديو من هذا المنشور على1>6015ط1رآ : رابط المنشور. 
المقالة: 
https://avichawla.substack.com/p/view-documentation-in-jupyter-notebook‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Jupyter%20 Tips/View-Documentation.ipynb 
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A No-code 9)]أنداة بدون كود لفهم بياناتك بسرعة 1ه1'0'‎ 
T'o Understand Your Data Quickly 


pandas_profiling ProfileReport 


profile ProfileReport(iris_data, 
"pandas Profiling Report") 


profile.to_widsets() 


Overview Variables Interactions Correlations Missing values Sample Duplicate rows 


Overview [alerts (7) Î Reproduction 

Dataset has 1 (0.7%) duplicate rows Duplicates 
sepal length (cm) is highly correlated with sepal width (cm) and 3.gtber.fields High correlation 
petal length (cm) is highly correlated with sepal length (cm) and 3.qther.fields High correlation 
petal width (cm) is highly correlated with sepal length (cm) and 3.other.fields High correlation 
target is highly correlated with sepal length (cm) and 3.qther. fields High correlation 


sepal width (cm) is highly correlated with sepal length (cm) and 3.ctber.fields High correlation 


target is uniformly distributed lL Unom | 


Report generated by YData. 


in linkedin.com/in/avi-chawla 
غاليًا ما تكون الخطوات الأولية لأي مهمة نموذجية من تحليل البيانات الاستكشافية ۴۸ هى نفسها.‎ 
ومع ذلك» عبر المشاريع. نميل إلى كتابة نفس الكود لتنفيذ هذه المهام. هذا يتكرر ويستغرق وقتا طويلا.‎ 


بدلاً من ذلك. استخدم 10111128م-211025م. يقوم تلقاتيًا بإنشاء تقرير موحد لفهم البياناتفي أي 
وقت من الأوقات. واجهة المستخدم البديهية تجعل هذا سهل وسريع. 


يتضمن التقرير بعد البيانات وإحصائيات القيمة المفقودة وأنواع بيانات العمود. علاوة على ذلك فإنه 
يوضح أيضًا توزيع البيانات والتفاعل والارتباط بين المتغيرات وما إلى ذلك. 


أخيرًاء يتضمن التقرير أيضًا التنبيهات» والتى يمكن أن تكون مفيدة للغاية أثناء التحليل / النمذجة. 


اقرأ المزيد: التوثيق. 
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المقالة: 
https://github.com/ChawlaAvi/Daily-Dose-of-Data‏ 
Science/blob/main/Pandas/Pandas-Data-Report.ipynb‏ 

الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Pandas-Data-Report.ipynb 
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Why 256 is لماذا 256 هو 256 ولكن 257 ليس 257؟‎ )0 
2256 But 257 is not 257 


IPython 


in linkedin.com/in/avi-chawla 
قد تكون مقارنة كائنات بايثون صعبةفي بعض الأحيان. هل يمكنك معرفة ما يجري في مثال الكود أعلاه؟‎ 
الإجابة أدناه:‎ 


عندما نقوم بتشغيل بايثون» فإنها تُحمّل مسبقًا قائمة عالمية من الأعداد الصحيحقفي النطاق [256 ,5-]. 
في كل مرة يُشار فيها إلى عدد صحيحفي هذا النطاق؛ لا تنشئ بايثون كائنًا جديدا. بدلا من ذلكء فإنه 
يستخدم النسخة المخيبأة .cached version‏ 


يتم ذلك لأغراض التحسين. واعتبر أن المبرمجين يستخدمون هذه الأرقام كثيرًا. لذلك من المنطقي أن 
تكون جاهرًا عند بدء التشغيل. 
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ومع ذلك. فإن الإشارة إلى أي عدد صحيح يتجاوز 256 (أو قبل 5-) سيؤدي إلى إنشاء كائن جديدفي 


كل مرة. 


في المثال الأخير, عندما يتم تعيين ‏ و طا على 257في نفس السطرء يقوم مترجم بايثون بإنشاء كائن 
جديد. ثم يشير إلى المتغير الثاني بنفس الكائن. 


يجب أن تمنحك الصورة أدناه فهمًا أفضل: 


Different 


in linkedin.com/in/avi-chawla 


المقالة: 
https://avichawla.substack.com/p/why-256-is-256-but-257-is-not-257‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Comparing-Integer-Objects.ipynb 
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Make a Class اجعل كائن الكلاس يتصرف مثل الدالة‎ )] 1 
Object Behave Like a Function 


class Quadratic: 
def INTE (Sel, a, 
self .a a 
self .b b 
self.c 6 


f = Quadratic(1, 2 


BEINECE (1)) 


pEINECE (2)) 


print (callable(f)) + 


إذا كنت تريد جعل كائن فئة عع زطاه ءھ1ء قابلاً للاستدعاء 1eطھالةc›‏ آي التصرف كدالة function‏ 
فيمكنك القيام بذلك عن طريق تعريف طريقة_6811 _. 


تتيح لك هذه الطريقة تحديد سلوك الكائن عند استدعائه كدالة. 
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يمكن أن يكون لهذا العديد من المزايا. على سبيل المثال» يسمح لنا بتنفيذ الأشياء التي يمكن استخدامها 
بطريقة مرنة وبديهية. علاوة على ذلك فإن بناء الجملة المألوف لاستدعاء الدالة»في بعض الأحيان» يمكن 


أن يجعل كودك أكثر قابلية للقراءة. 
أخيراً. يسمح لك باستخدام كائن فئةفي السياقات حيث يتوقع الاستدعاء. استخدام فئة ك 012]01ع06» 


على سبيل المثال. 


المقالة: 
https://avichawla.substack.com/p/make-a-class-object-behave-like-a‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Make-Class-Callable.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 27 


Lesser-known Pickle ميزة أقل شهرة لملفات‎ )2 
feature of Pickle Files 


dump.py‏ هع 


t pickle 
open("data.pkl", "wb") 
pickle.dump(a, f) 


pickle.dump(b, f) 
pickle.dump(c, f) 


load.py‏ هج 


pickle 


Load Only 1 open("data.pkl", "rb") 
First 2 د‎ a pickle. load(f) 


b pickle. load( f) 
5عاط2136ة/ا‎ 


F 6‏ = ا ري 


in| linkedin.com/in/avı-chawla 
تستخدم 2101165 على نطاق واسع لخزن كائنات البيانات على القرص. لکن الناس غالبا ما يرمون شيئًا‎ 
واحد فقطني ع2111. علاوة على ذلك» يخلق المرء 2101215 متعددة لتخزين كائنات متعددة.‎ 
ومع ذلك» هل تعلم أنه يمكنك تخزين أي عدد تريده من العناصر داخل 210116 واحد؟ علاوة على ذلك‎ 
عند إعادة التحميل» ليس من الضروري تحميل جميع الكائنات.‎ 
فقط تأكد من تفريغ الكائنات داخل نفس مدير السياق (باستخدام خذس).‎ 
بالطبع» أحد الحلول هو تخزين الكائنات معَافي مجموعة. ولكن أثناء إعادة التحميل» سيتم تحميل‎ 
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المقالة: 
https://avichawla.substack.com/p/lesser-known-feature-of-pickle-files‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Pickle-Multiple-Dump.ipynb 


N 
-3[ 
ارق‎ 
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3 المخطط النقطي: بديل محتمل للمخطط الشريطي 
Dot Plot: A Potential Alternative to Bar Plot‏ 


140 Country 
cuya 
رست 8 لفن‎ 
ه 5 د‎ 
1 
2 هه‎ 
a < < - 3 ” 
و ردا ہد رمتا وتا رمتا ہمت رما يننا‎ 


Country 
© country A 
© Country 8 


ع 
92 
2 
0 

ع 

-[ 
2 
10 
3 
a 
° 
6 


in finkedin.com/in/avi-chawla 
categorical 72133165 تعد المخططات الشريطية اهام 821 مفيدة للغاية لتصور المتغيرات الفئوية‎ 
مقابل قيمة مستمرة 721116 00116011110115. ولكن عندما يكون لديك العديد من الفتات لتصويرهاء فقد‎ 
فى مخطط شريطى به العديد من الأشرطة. غالبا ما لا نولى اهتمامًا لأطوال الاشرطة الفردية. بدلاً من‎ 
ذلك» نعتبرفي الغالب نقاط النهاية الفردية التى تشير إلى القيمة الإجمالية.‎ 


يمكن أن يكون المخطط النقطي 10م 1004 خيارًا أفض لني مثل هذه الحالات. إنها مثل مخططات التشتت 
scatter 15‏ ولكن مع محور فئوي واحد وآخر مستمر. 


بالمقارنة مع المخطط الشريطي» فهي أقل تشوشاً ولديها فهم أفضل. هذا صحيح بشكل خاص في الحالات 
التي يكون لدينا فيها العديد من الفتات و / أو عدة أعمدة فتوية لتصويرهافي المخطط. 


اقرأ المزيد: التوثيق. 
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المقالة: 
https://avichawla.substack.com/p/dot-plot-a-potential-alternative‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Dot- Plots.ipynb 
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4 لماذا يمكن أن يكون الارتباط (والإحصائيات الأخرى) 
مضللة. Why Correlation (and Other Statistics) Can Be‏ 


.Misleading 


No Outliers 


2 Outliers 
غالبا ما يستخدم الارتباط 001612601 لتحديد الارتباط بين متغيرين مستمرين. لكنها تحتوي على‎ 
عيب كبير غالبا ما لا يلاحظه أحد.‎ 


without _outliers.pY 


df. COLE () 
output 


value 0.89 


with_outliers.pY 


df.corr(df.output) 
output 
value 0.08 


in linkedin.com/in/avi-chawla 


غالبا ما يستخلص الناس استنتاجات باستخدام مصفوفة الارتباط ناهد 0112601 دون النظر إلى 
البيانات. ومع ذلك. يمكن أن تكون الإحصاءات 5620056105 التي تم الحصول عليها مدفوعة بشدة بالقيم 


المتطرفة 15ع01111. 
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هذا موضحفي المخططات أعلاه. أدت إضافة اثنين فقط من القيم المتطرفة إلى تغيير الارتباط وخط 
الانحدار بشكل كبير. 
وبالتالي» فإن النظر إلى البيانات وفهم خصائصها الأساسية يمكن أن ينقذ من استخلاص استنتاجات 
خاطتة. الإحصائيات مهمة. لكنها قد تكون مضللة للغايةفي بعض الأحيان. 
المقالة: 
https://avichawla.substack.com/p/why-correlation-and-other-statistics‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Statistics/Statistics- Can-Mislead.ipynb 
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Sidetable مع‎ Pandas في‎ value counts) عزز طريقة‎ )55 
Supercharge value counts) Method in Pandas With 
Sidetable 


sidetable.py 


sidetable 


dE SED. 200] 
True) 
North Melissafurt 


City count percent cumulative_count cumulative_percent 


West Jamesview 120 12.00% 120 12.00% 
Aliciafort 113 11.30% 233 23.30% 
Ricardomouth 106 10.60% 339 33.90% 
New Cindychester 106 10.60% 445 44.50% 
Whiteside 104 10.40% 549 54.90% 
Kristaburgh 97 9.70% 646 64.60% 
Wardfort 96 9.60% 742 74.20% 

New Russellton 93 9.30% 85 83.50% 
Whitakerbury 87 8.70% 922 92.20% 


North Melissafurt 78 7.80% 100.00% 


in| linkedin.com/in/avi-chawla 
catمعمإنca1 تستخدم طريقة ()7/23111©6_©01112]5 بشكل شائع لتحليل الأعمدة الفثرية كطدصد[هء‎ 


لكن لها العديد من القيود. 


على سبيل المثال» إذا أراد المرء عرض النسبة المئوية والعدد التراكمي وما إلى ذلك.في مكان واحد. تصبح 
الأمور مملة بعض الشىء. هذا يتطلب المزيد من التعليمات البرمجية ويستغرق وقتا طويلا. 


بدلاً من ذلك استخدم 1eاidetabء.‏ اعتيرها نسخة معززة من ()1821116_©01111]5. كما هو موضح 
أدناه. توفر طريقة ())6760 من 5106188516 ملخصا أكثر فائدة من ()0112]5ح©_7721116. 
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بالإضافة إلى ذلك يمكن ل 5106016 تجميع أعمدة متعددة أيضًا. يمكنك أيضًا توفير نقاط حد لدمج 
البياناتفي مجموعة واحدة. علاوة على ذلك. يمكنه طباعة إحصائيات البيانات المفقودة 022 11551118 
وقيم الطباعة الجميلة وما إلى ذلك. 
اقرا المزيد: 1516© . 
المقالة: 
https://avichawla.substack.com/p/supercharge-value counts-method-in‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Better- Value Counts-Method.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 281 


Write Your Own اكتب نكهة 222025 الخاصة بك‎ ])6 
Flavor Of Pandas 


my_pandas.py 


1. Decorate your 
method 


ا 


df.loc[len(df)] row 


2. Import module 
project.py 


my_pandas 


Planets Position Planets Position 
Mercury 1 


0 Mercury 3 5 Venus 2 


1 Venus new_row ["Earth", 3] 


Earth df .add_row(new_row) 


"add_row"‏ .3 د 


in linkedin.com/in/avi-chawla attached to df 
مھ (أو سلسلة 561165): فاستخدم‎ das 022۴ص٥ إذا كنت ترغبفي إرفاق دالة مخصصة بكائن‎ 


."pandas-flavor" 
.2212025 يسمح لك 0601260155 الخاص به بإضافة طرق مباشرة إلى كائن‎ 


هذا مفيد بشكل خاص إذا كنت تقوم ببناء مشروع مفتوح المصدر يتضمن 2212025. بعد تثبيت مكتبتك› 
يمكن للآخرين الوصول إلى أساليب مكتبتك باستخدام كائن هه . 


ملاحظة. هكذا نرى df.progress_apply()‏ من df.parallel_apply() « tqdm‏ من 
[2531021:211 وغيرها الكثير. 


اقرأ المزيد: التوثيق. 
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المقالة: 
https://avichawla.substack.com/p/write-your-own-flavor-of-pandas‏ 
الكود: 

https://github.com/ChawlaAvi/Daily-Dose-of-Data 


Science/blob/main/Pandas/Customize-Pandas.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


7] عتتناوذء200): مساعد الترميز ۸1 الذي يجب عليك 
استخدامه عبر CodeSquire: The AI GitHub Copilot‏ 
Coding Assistant You Should Use Over GitHub‏ 
Copilot‏ 


KY CodeSquire.ai 


from catboost.datasets import titanic 
import numpy as np 


0 
import pandas as pd Write 
from catboost import CatBoostClassifier 

comment 


train_df, test_df = titanic() 
train_df.head() 
# one hot encode all the categorical vars in train_df and test_df 


train_df = pd.get_dummies (train_df, columns=['Sex', 'Embarked']) 
test_df = pd.get_dummies(test_df, columns=['Sex', 'Embarked'] ) 


in linkedin.com/in/avi-chawla 
مساعدي البرمجة مثل 0071106 ان611 ثوريون حيث أنهم يقدمون العديد من المزايا. ومع ذلك فإن‎ 
فائدة امه محدودة لمحترفي البيانات. هذا لأنه غير متوافق مع 11085 المستندة إلى الويب‎ 
.(Jupyter / Colab) 


علاوة على ذلك.في علم البيانات» يتم تحديد الخطوات الاستكشافية اللاحقة من خلال المخرجات 
السابقة. لكن هزمه لا يعتبر ذلك (وحتى خلايا العلامات لاع 12211200151) لدفع اقتراحات الكود 
الخاصة به. 

111 0005) هو مساعد ترميز مذهل للذكاء الاصطناعي يعالج قيود برنامج غ110م00). الشيء الجيد 
إلى جانب إنشاء الكود السلس» يمكنه إنشاء استعلامات .501 من النص وشرح التعليمات البرمجية. 
يمكنك الاستفادة من إنشاء الكود المدعوم بالذكاء الاصطناعى ببساطة عن طريق تثبيت امتداد متصفح. 


اقرأ المزيد: .CodeSquire‏ 
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شاهد نسخة فيديو من هذا المنشور على 1,1216012 : رابط المنشور. 
المقالة: 
https://avichawla.substack.com/p/codesquire-the-ai-coding-assistant‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Jupyter%20 Tips/CodeSquire-Al-code-completion.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


8 ) لا يضمن التوجيه دائما أداء أفضل Vectorization Does‏ 


Not Always Guarantee Better 2 


df Name 


Vectorized.py Beth Alvarez 


1 Deborah Watkins 
df.Name.str.split() 2 Jeffrey Compton 
3 Alan Wolfe 


4 Kathryn Gordon 


Non-vectorized.py 


me_ 50213165 : 
s.split() 


df.Name.apply(name_split) 


in linkedin.com/in/avi-chawla 
تم اعتماد التوجيه ا بشكل جيد لتحسين أداء وقت التنفيذ. باختصارء يتيح لك تشغيل‎ 
البيانات على دفعات 620165 بدلا من معالجة قيمة واحدةفي كل مرة.‎ 


على الرغم من أن التوجيه فعال للغايةء يجب أن تعلم أنه لا يضمن دائمًا مكاسبفي الأداء. علاوة على 
ذلك. يرتبط التوجيه أيضًا بحمل الذاكرة .memory overheads‏ 


كما هو موضح أعلاه» يوفر الكود غير المتجه 006 12011-76011260 أداءً أفضل من الإصدار المتجه. 
ملاحظة. ()لإ1تم هي أيضًا حلقة من حلقات 102 
قراءات إضافية: هنا. 
المقالة: 
https://avichawla.substack.com/p/in-defense-of-match-case-statements‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/match-case.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 256 


In Defense بلغة بايثون‎ match-case دفاعا عن حالات‎ (19 
of Match-case Statements in Python 


© © û if-else.py 


def make_point (point) : 
if isinstance(point, 


if len(point) > 
X, J = point 
return Point3D(X, ,لا‎ 0) 


elif len(point) = 3: 
X, J, 2 = point 
return Point3D(Xx, ,لا‎ 2( 


else: 
raise TypeError ("Unsupported") 


ror ("Unsupported") 


© © û match-case.py 


def make_point (point) : 
match point: 
case (xX, ¥): 
return Point3D(X, ,لا‎ 0) 


Case (X, Y, 2J: 
return Point3D(X, ,لا‎ 2( 


Error ("Unsupported") 


> make_point( (1, 
Point3D(x=1, 22لا‎ , 


> make_point([1, 2, 
Point3D(Xx=1, Y¥=2, 


>> make_point((1, 2, 
Jr: Unsupported 


lin 
»Pyاط0٣‎ 3.10 صادفت مؤخرًا منشورًا على ©1733612-635 بلغة بايثون.في الخلاصة. بدء تشغيل‎ 


يمكنك استخدام عبارات ©112612-625 لتقليد سلوك ©156[ع-11. 


اقترحت العديد من الردود على هذا المنشور أن الأناقة وسهولة القراءة أعلى. هذا مثال للدفاع عن 
.match-case‏ 
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في حين أن 16-6156 مقبولة تقليديًاء فإنها تأتي أيضًا مع العديد من الجوانب السلبية. على سبيل المثال »في 
كثير من الأحيان» يتعين على المرء كتابة سلاسل معقدة من عبارات 16-6156 المتداخلة. يتضمن ذلك 
استدعاءات متعددة لأساليب ()ضع1 و ()ع©15125632 وما إلى ذلك. 


علاوة على ذلك ©165-6156: يتعين على المرء تدمير البيانات بشكل صريح لاستخراج القيم. هذا يجعل 
الكود الخاص بك غير أنيق وفوضوي. 

من ناحية أخرى. تتطابق ©5ه--2/1217 مع مطابقة الأنماط الهيكلية مما يجعل هذا الأمر بسيطًا وموجرًا. 
في المثال أعلاه. تتعامل عasء- Mat‏ تلقائيًا مع مطابقة النوع عدذطعاةدط-ءمر وفحص الطول 
length check‏ والتفريغ المتغير .variable unpacking‏ 


اقرأ المزيد هنا: مستندات بايثون. 
المقالة: 
https://avichawla.substack.com/p/using-dictionaries-in-place-of-if‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/match-case.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


0) إثراء النوتبوك الخاص بك مع عناصر تحكم تفاعلية 
Enrich Your Notebook With Interactive Controls‏ 


Add Drop-down 


select company 


from dropdown 


"هبي و 


9 
كر © ° 
® 


in linkedin.com/in/avi-chawla 
أثناء استخدام إمارمدال غالبا ما نعيد تشغيل نفس الخلية بشكل متكرر بعد تغيير الإدخال قليلاً. هذا‎ 
يستغرق وقتا طويلاً ويجعل أيضًا مهام استكشاف البيانات مملة وغير منظمة.‎ 


بدلاً من ذلك قم بالتركيز على إنشاء عناصر تحكم تفاعلية 6016016 111667326656في النوتبوك الخاص 
بك. يسمح لك هذا بتعديل المدخلات دون الحاجة إلى إعادة كتابة التعليمات البرمجية وإعادة تشغيلها. 


في 1ع]7إ115[» يمكنك القيام بذلك باستخدام الوحدة النمطية 5 182[/181086. يعد تضمين عناصر تحكم 
تفاعلية أمرًا بسيطً مثل استخدام decorator‏ . 


ونتيجة لذلك: فإنه يوفر لك عناصر تحكم تفاعلية مثل القوائم المنسدلة 5م00 0مك وشرائح التمرير 
5 هذا يوفر عليك الكثير من الترميز المتكرر ويجعل النوتبوك الخاص بك منظمًا. 
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المقالة: 
https://avichawla.substack.com/p/enrich-your-notebook-with-interactive‏ 
الكود: 

https://github.com/ChawlaAvi/Daily-Dose-of-Data 


Science/blob/main/Pandas/Interactive-Controls.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 290 


Get Jupyter احصل على إشعار عند تنفيذ خلية‎ )/1 
Notified When Jupyter Cell Has Executed 


notebook.ipynb 


load_ext jupyternotify 
notify 


YOUR-CODE 


Jupyter Notebook 
© الل‎ 


CS 


in linkedin.com/in/avi-chawla 

بعد تشغيل بعض التعليمات البرمجيةفي خلية © رمال غالبا ما ننتقل بعيدا للقيام ببعض الأعمال 
الأخرىفي هذه الأثناء. 
هناء يتعين على المرء العودة مرارًا وتكرارًا إلى علامة التبويب 11776617[ للتحقق مما إذا كانت الخلية قد 
لتجنب ذلك» يمكنك استخدام الأمر السحري 96961206147 من الاضافة 112[766111061637[. كما يوحي 
الاسم فإنه يبلغ المستخدم عند إكمال خلية إ#٤رم‏ داز (سواء كانت ناجحة أو غير ناجحة) عبر إشعار 
المستعرض. يؤدي النقر فوق الإشعار إلى العودة إلى علامة التبويب ۲ع ارما[ 
اقرأ المزيد: جان1]]1©. 

المقالة: 

https://avichawla.substack.com/p/get-notified-when-jupyter-cell-has 
الكود:‎ 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Jupyter%20T'ips/Cell-Notification.ipynb 
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[uمy‎ ter تحليل البيانات باستخدام 2025م بدون كود في‎ 2 
Data Analysis Using No-Code Pandas In Jupyter 


5 + KAD ^ YY < ص8‎ 8 © << code v | EB | 59 Greate New Mitosheet Snippets» © © © # f»: O nbdiff 


In [1]: 1 import mitosheet 
2 mitosheet.sheet (analysis_to_replay=" id-ymyxvhaoes" ) 


executed in 4.975, finished 14:48:34 2022-11-22 


Edit Dataframes Columns Rows Graphs Format View Help 
I GEG COI U نك‎ E O IY 0 0 127 82 َي اله‎ 


Undo Redo Clear Import Export AddCol DelCol Dtype Less More Number Pivot Graph steps Fullscreen 
Employee_City | Employee_City 
Name ¥ Company_Nam Y Employment_St Y 
str e str atus str 
Christopher Jones Matthews Inc Aliciafort Full Time 
Mitchell Hill Baker, Allen and Edw Aliciafort 4,078.71 | Full Time 
Dawn Bailey White, Mcclain and Ci Aliciafort 11,379.39 | Full Time 
Donald Bowman Scott Inc Aliciafort 4,292.43 | Full Time 
Kelly Liu Matthews Inc Aliciafort 4,413.51 | Intern 
David Mills Johnston, Fleming arl Aliciafort 6,917.60 | Intern 
Vanessa Lamb Taylor-Ramos Aliciafort 8,391.54 | Full Time 
Douglas Kennedy Andrade LLC Aliciafort 2,815.63 | Full Time 
Jeffrey Gonzalez Taylor-Ramos Aliciafort 10,401.33 | Full Time 
Emily Weber Matthews Inc Kristaburgh 7,676.39 | Inter 
Zachary Ellison James and Sons Kristaburgh 7,194.54 | Full Time 
Gina Acosta Nichols-James Kristaburgh 7,239.98 | Full Time 
Jason Reyes Matthews Inc Kristaburgh 6,760.68 | Full Time 
James Wright Nelson-Li Kristaburgh 3,980.27 | Intern 


LCE] ill graphO (100 rows, 6 cols) 


in linkedin.com/in/avi-chawla 


توفر ۸1 22035 مجموعة واسعة من الدوال لتحليل مجموعات البيانات المجدولة. 


ومع ذلك» عبر المشاريع» غالبا ما نستخدم نفس الأساليب مرارًا وتكرارًا لتحليل بياناتنا. يتكرر هذا بسرعة 
ويستغرق وقتا طويلاً. 

لتجنب ذلك استخدم 2/1360. إنها أداة رائعة تسمح لك بتحليل بياناتك داخل واجهة جدول بياناتني 
اع لإطتال» دون كتابة أي كود. 


2 


أروع شي ءي 2/3160 هو أن كل تعديلني جدول البيانات يولد تلقائيًا كود بايثون مكافنًا. هذا يجعل من 
الملائم للغاية إعادة إنتاج التحليل لاحقا. 


اقرأ المزيد: التوثيق. 
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المقالة: 
https://avichawla.substack.com/p/data-analysis-using-no-code-pandas‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Mito--No-code-Pandas.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 293 


3) استخدام القواميس بدلا من شروط 14 عطزونآ 


Dictionaries In Place of 11-25 


if_else.py 


number int (input ()) 


number 
func1() 


number 
func2() 


func3() 


dict.py 


number int (input ( ) ) 


func_map 21: 1011 
2:func2} 


replace with 
dictionary func_map. get (number, func3) )( 


in linkedin.com/in/avi-chawla Default 
تستخدم القواميس 1016610121365 بشكل أساسي كهيكل بياناتفي بايثون للحفاظ على أزواج القيمة-‎ 
.key-value pairs المفتاح‎ 
1۴ ومع ذلك هناك حالة استخدام خاصة أخرى يمكن للقواميس التعامل معها. هذا هو إزالة شروط‎ 
من التعليمات البرمجية الخاصة بك.‎ 
ضعني اعتبارك مقتطف الكود أعلاه. هناء بما يتوافق مع قيمة الإدخال» نستدعي دالة محددة. تتطلب‎ 
الطريقة التقليدية منك برمجة كل حالة.‎ 
ولكن باستخدام القاموس» يمكنك استرداد الدالة المقابلة مباشرة من خلال تزويدها بالمفتاح. هذا يجعل‎ 
شفرتك موجزة وأنيقة.‎ 
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المقالة: 
https://avichawla.substack.com/p/using-dictionaries-in-place-of-if‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/dict-vs-ifelse.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 206 


4 مسح إخراج الخلية في نوتبوك 96م[ أثناء وقت التنفيذ 
Clear Cell Output In Jupyter Notebook During Run-‏ 


tıme 


time 
IPython.displLay clear_output 


1056 (100) : 


clear_output ( 


»rint(f'Output Number {i+1} 
time.sleep (1) 


for i in range(100): 


## wait for the next 
## output before clearing 
clear_output (wait=True) 


print (f 'Output Number {i+1}') 
8 time.sleep(1) 


executed in 1m 40.6s, finished 15:55:44 2022-11-19 


Output Number 100 ( > Only Last Output 


in linkedin.com/in/avi-chawla 
أثناء استخدام إمرم دال غالبًا ما نطبع العديد من التفاصيل لتتبع تقدم الكود.‎ 
ومع ذلك يصبح الأمر محبطًا عندما تتراكم لوحة الإخراج مجموعة من التفاصيل» لكننا مهتمون فقط‎ 
بأحدث المخرجات. علاوة على ذلك يمكن أن يكون التمرير إلى أسفل الإخراجفي كل مرة مزعجًا أيضا.‎ 
لمسح إخراج الخليةء يمكنك استخدام طريقة ألامناه_31ع1ء من الحزمة 101[ لا15. عند الاستدعاء‎ 
ستزيل الإخراج الحالي للخليةء وبعد ذلك يمكنك طباعة أحدث التفاصيل.‎ 
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المقالة: 
https://avichawla.substack.com/p/clear-cell-output-in-jupyter-notebook‏ 


الكود: 


https://avichawla.substack.com/p/clear-cell-output-in-jupyter-notebook 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 297 


A Hidden Pandas ميزة خفية لوصف طريقة في‎ )/5 
Feature of Describe Method In Pandas 


Only Numerical 
Columns ۷ 


2 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 


count 3.0 3.0 
unique NaN NaN 
top NaN NaN 
freq NaN NaN 
mean 3.0 4.0 
std 20 20 
min 1.0 2.0 
25% 20 30 
50% 3.0 40 
75% 40 50 
max 5.0 6.0 


All Columns 


in linkedin.com/in/avi-chawla 


تستخدم طريقة ()©0656]16 في 222025 بشكل شائع لطباعة الإحصائيات الوصفية حول البيانات. 


ولكن هل سبق لك أن لاحظت أن ناتجها يقتصر داتمًا على الأعمدة العددية؟ 


بالطبع؛ تفاصيل مثل المتوسط :52621» المنوال 12601312 الانحراف المعياري .067 .560: وما إلى ذلك 
لا يحمل أي معنى للأعمدة غير الرقميةء لذا فإن النتائج منطقية تمامًا. 


ومع ذلك يمكن أن توفر ()©4656115 أيضًا ملخصًا سريعًا للأعمدة غير الرقمية. يمكنك القيام بذلك 
بتحديد ".311"-10610006. نتيجة لذلك. سيعيد عدد العناصر الفريدة» العنصر العلوي مع تكراره. 


اقرأ المزيد: التوثيق. 


298 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/a-hidden-feature-of-describe-method‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Hidden-Feature-of-Describe.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 206 


6) استخدم 01255) 0ع5106 لتحسين كود بايثون الخاص بك 
Use Slotted Class To Improve Your Python Code‏ 


Without _slots.py‏ مع 


init (self, name, age): 
elf .Name name 
elf .Age EE 


person Person('Mike', 


person.name 'peter' 


With_slots.py‏ م 


['Name', 'Age'] 
111 (self, name, age): 
self .Name name 
Lf . © age 


person Person('Mike', 22) 


person.name 'Peter' 


in linkedin.com/in/avi-chawla 


إذا كنت ترغب في تحديد السمات التي يمكن أن تحملها الفئة و0125 ففكرفي تحديدها ك وها 510]660. 


أثناء تحديد الفثات» تسمح لك كاه اء بتحديد سمات الفئة صراحة. هذا يعني أنه لا يمكنك إضافة 
سمات جديدة بشكل عشوائى إلى كائن 1355© 5106]60. هذا يوفر العديد من المزايا. 


على سبيل المثال. تعتبر 6135569 5106660 فعالةفي الذاكرة وتوفر وصولاً أسرع إلى سمات الفئة. علاوة 
على ذلك يساعدك أيضًا على تجنب الأخطاء المطبعية الشائعة. قد يكون هذاءفي بعض الأحيان» خطأ 
مكلف يمكن أن يمر دون أن يلاحظه أحد. 


اقرأ المزيد: .StackOverflow‏ 


300 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/use-slotted-class-to-improve-your‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Slotted-Classes.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 301 


7) أوقف تحليل الجداول الخام. استخدم التصميم بدلا من 
ذلك! IStop Analysing Raw Tables. Use Styling Instead‏ 


df_bar.py df_gradient.py 


data.style. bar ( und_gradient ( 
11 


'Count') 


Currency Count 


© ههه 


2 
3 
4 
5 
6 
7 
8 
9 


هد الهم 
6 ههه 


in linkedin.com/in/avi-chawla 


167[ هو 12۴ قائم على الويب. وبالتالي» عندما تقوم بطباعة / عرض ۴۲4ف ter‏ pyتاJ‏ 
يتم تقديمه باستخدام .CSSy HTML‏ 


هذا بعد. أنه تمكتاق 3 خر جاتك بعدة طرق مختلفة. 
يبعي د عم :محر ب 


للقيام بذلك. استخدم 411 561128 من 221025. هناء يمكنك إجراء العديد من التعديلات المختلفة 
على كائن :567161 10262112125 (eالtء.d۴).‏ نتيجة لذلك. سيتم عرض 44۴۲۵٥۳٣٤٥‏ بتصميم محدد. 


التصميم 5671158 يجعل هذه الجداول جذابة بصريًا. علاوة على ذلك» فإنه يسمح بفهم البيانات بشكل 
أفضل من عرض الجداول الأولية. 


اقرأ المزيد هنا: التوثيق. 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


8)) استكشف بيانات 0577© مباشرة من الترمينال 1056م:18 
CSV Data Right From The Terminal‏ 


data.csv 
Name Marks Grade 
© © Excel to CSV Joe 95 A 


B 
: A 
5 in2csv data.xlsx > data.csv ۸ 


© © Column Stats 


5 csvstat data.csv 
© © Column Names 2. "Marks" 
Type of data: Number 
Contains null values: False 
5 csvcut -n data.csv Unique values: 4 
1: Name smallest value: 89 
2: Marks Largest value: 95 
3: Grade sum: 370 
Mean: 92.5 
Median: 93 
StDev: 2.646 


© © Query 


csvsql --query "select * from data where Marks>90" data.csv 
Name Marks | Grade | 


Chris 
Julie 


lin 1‏ 
إذا كنت ترغبفي استكشاف بعض بيانات 08۷ بسرعة» فقد لا تحتاج دائمًا إلى تشغيل جلسة 661/إ110[. 
بدلاً من ذلك باستخدام “"csvkit'"‏ يمكنك القيام بذلك من الترمينال نفسه. كما يوحي الاسمء فإنه يوفر 
مجموعة من أدوات سطر الأوامر لتسهيل مهام تحليل البيانات. 
يتضمن ذلك تحويل 8661 إلى 0577: وعرض أسماء الأعمدة» وإحصاءات البيانات» والاستعلام 
باستخدام 501. علاوة على ذلك. يمكنك أيضًا أداء وظائف 222025 الشائعة مثل الفرز 5016028 
والدمج ”عام والتقطيع ڇد1ناء. 


اقرأ المزيد: التوثيق. 


303 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/explore-csv-data-right-from-the-terminal‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/CSV-From-Terminal.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


Generate Your Own أنشخ بياناتك المزيفة في ثوان‎ ]9 
Fake Data In Seconds 


fake_data.py‏ م 


m faker 
fake = Faker() 


fake.name () 
"Darrell Alexander' 


. fake.email() 
'ryanrichardaexamp 1-6 . com' 


fake.address() 
' 205 Brown Point, West Melissaport, MN 93828' 


fake.company () 
'Lam, Thomas and Cooper' 


fake.date_of_birth() 
datetime.date(1973, 1, 21) 


fake.color_name () 
'LightBlue' 


in linkedin.com/in/avi-chawla 
عادةء لتنفيذ / اختبار خط أنابيب» نحتاج إلى تزويده ببعض البيانات الوهمية 1268 07د نا.‎ 


على الرغم من استخدام مكتبة "1121101333" لبايثون. يمكن للمرء إنشاء سلاسل عشوائية واعداد حقيقية 
وأعداد صحيحة. ومع ذلك نظرًا لكونه عشواتيّاد فإنه لا ينتج أي بيانات ذات معنى مثل أسماء الأشخاص 
وأسماء المدن ورسائل البريد الإلكترونى وما إلى ذلك. 

هناء يمكن أن يستغرق البحث عن مجموعات بيانات مفتوحة المصدر وقتًا طويلاً. علاوة على ذلك من 
المحتمل أن مجموعة البيانات التى تجدها لا تلبى متطلباتك بشكل جيد. 

تعد الوحدة النمطية مه۴ ني بايثون حلاً مثاليًا لذلك. يسمح لك +591 بإنشاء بيانات مزيفة للغاية 
(لكنها ذات مغزى) بسرعة. علاوة على ذلك. يمكنك أيضًا إنشاء بيانات محددة لمجموعة ديموغرافية. 


اقرأ المزيد هنا: التوثيق. 


305 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/generate-your-own-fake-data-in-seconds‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Testing/Generate-Fake-Data.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


0) قم باستيراد حزمة بايثون الخاصة بك كوحدة نمطية 
Import Your Python Package as a Module‏ 


5 directory_ne 
directory_old recy 


ject Ada project 
project ب‎ ١ : 
|— model __inif_.py ]م‎ model 
Hail py هسل ده‎ | __init__.py 
20 | train. py 
ا‎ test.py ا‎ 0 


pipeline.py 1 1‏ ا 
l— pipeline.py‏ 


Redundant 
Imports 


pipeline.py .train Training 
.test Testing 


model.train Training 
model.test Testing 


pipeline.py‏ م 
Import from‏ 
Package like model Training, Testing‏ 


Ee IES 


in linkedin.com/in/avi-chawla 
وحدة بايثون هي ملف بايثون (لإام.). تسمى المجموعة المنظمة لمثل هذه الملفات حزمة بايثون‎ 
.python package 


أثناء تطوير المشاريع الكبيرة» من الممارسات الجيدة تحديد ملف داخل الحزمة. 
ضعفي اعتبارك أن train. py‏ لها فئة Training‏ ڍ test.py‏ بها فئة .Testing‏ 


بدون لإم._+1همؤ__ ء يتعين على المرء أن يستوردها صراحةً من ملف بايثون محدد. نتيجة لذلك. من 
غير الضروري كتابة عبارات الاستيراد. 

باستخدام لام._1016__ ٠‏ يمكنك تجميع ملفات بايثونفي وحدة نمطية واحدة قابلة للاستيراد. بمعنى 
آخرء يوفر آلية للتعامل مع الحزمة بأكملها كوحدة بايثون. 

هذا يحميك من كتابة عبارات استيراد مكررة ويجعل كودك أكثر نظافةفي نص الاستدعاء. 


اقرأ المزيدفي هذه المدونة: رابط المدونة. 


307 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/import-your-python-package-as-a-module‏ 


الكود: 
https://github.com/ChawlaAvi/Daily-Dose-of-Data‏ 
Science/blob/main/Python/Import-Package- As-Module.ipynb‏ 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 308 


Specify Loops and %%timeit حدد الحلقات ونفذها في‎ 1 
Runs In %%timeit 


number of number of 
loops (1000) runs (4) 


E3 / 


timeit n 1000 


time.sleep(2) 


in linkedin.com/in/avi-chawla 
نستخدم عادة الأمر السحري 968153616 (أو 61106189090) لقياس وقت تنفيذ التعليمات البرمجية‎ 
الخاصة بنا.‎ 


هناء تحدد 8318616 عدد عمليات التشغيل اعتمادًا على المدة التي يستغرقها السكريبت للتنفيذ. هذا هو 
السببفي نك : تری عددًا مختلقًا من الحلقات loops‏ (والتنفيذات (runs‏ عبر أجزاء مختلفة من التعليمات 
الجا 


ومع ذلك. إذا كنت تريد تحديد عدد الحلقات والتنفيذات بشكل صریح» فاستخدم الخيارين0- و٣-.‏ 
استخدم 8- لتحديد الحلقات و۲ لرقم التنفيذ. 


المقالة: 
https://avichawla.substack.com/p/specify-loops-and-runs-in-timeit‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Change-Loops-in- Timeit.ipynb 


309 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


/ مخططات الشلال: أفضل بديل للمخطط الخطي‎ 2 
Waterfall Charts: A Better Alternative to الشريطي‎ 
Line/Bar Plot 


Waterfall.py 


waterfall_chart 


waterfall_chart.plot(df.Month, 
df .Delta) 


1 1 1 1 1 1 1 1 1 1 


1 1 
عم لمي ھن عي كير خخ كبر لعن مم کې هې كين 


in linkedin.com/in/avi-chawla 
إذا كنت ترغبفي تصور قيمة خلال فترة ماء فقد لا يكون المخطط الخطي 106م-6صذ[ (أو المخطط‎ 
الشريطى غ10م-621) دائمًا خيارًا مناسبًا.‎ 


المخطط الخطى (أو المخطط الشريطى) يصور القيم الفعليةفي المخطط. وبالتالى. في بعض الأحيان» قد 
يكون من الصعب تقدير حجم التغييرات المتزايدة بصريًا. 


بدلاً من ذلك» يمكنك استخدام مخطط الشلال 1216 7726114211 يصور هذه الفروق المتدحرجة بأناقة. 


لإنشاء واحدة. يمكنك استخدام +1931 ااه؟امat‏ سن بايثون. هناء يتم تمثيل قيم البداية والنهاية 
بواسطة الشريطين الأول والأخير. يتم أيضًا ترميز التغييرات الهامشية تلقاتيًا بالألوان» مما يسهل تفسيرها. 


اقرأ المزيد هنا: ڑGitHu.‏ 


310 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/waterfall-charts-a-better-alternative‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/ W aterfall-Charts.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 311 


3 مخططات طنتطعءء131 كبديل أكثر ثراء للمخططات 
المبعثرة مغ Hexbin Plots As A Richer Alternative‏ 
Scatter Plots‏ 


scatter.py 


01 20 d='scatter', 


hexbin.py 


df.plot (ki! 'hexbin', 


1١ 


ا 
0" 


in linkedin.com/in/avi-chawla 
المخططات المبعثرة 1045م إع٤ةء5 مفيدة للغاية لتصور مجموعتين من المتغيرات العددية. ولكن عندما‎ 
يكون لديك» على سبيل المثالء آلاف نقاط البيانات» يمكن أن تصبح المخططات المبعثرة كثيفة للغاية‎ 
بحيث لا يمكن تفسيرها.‎ 


يمكن أن يكون ومذطدء11 اختيارًا جيدَاني مثل هذه الحالات. كما يوحي الاسم يقومون بتجميع مساحة 
المخططفي مناطق سداسية 7691025 263801221 . يتم تعيين كثافة لون لكل منطقة بناءً على طريقة 
التجميع المستخدمة (عدد النقاط. على سبيل المثال). 


تعتبر 5ذط:< 116 مفيدة بشكل خاص لفهم انتشار البيانات. غالبا ما يُعتبر بديلاً أنيقا لمخطط التشتت. 
علاوة على ذلك» يسهل 511211128 تحديد مجموعات البيانات وتصوير الأنماط. 


312 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/hexbin-plots-as-a-richer-alternative‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/HexBins.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 5 
4] أصبح استيراد الوحدات النمطية سهلاً باستخدام 
Importing Modules Made Easy with Pyforest Pyforest‏ 


5 


n 


in linkedin.com/in/avi-chawla 


يبدأ الطلاب النموذجيون المرتبطون بالبرمجةفي علم البيانات باستيراد الوحدات النمطية ذات الصلة. 


ومع ذلك عبر النوتبوك / المشاريع؛ فإن الوحدات التي يستوردها المرء هي نفسهاني الغالب. وبالتالي» 
فإن مهمة استيراد جميع المكتبات الفردية متكررة نوعا ما. 

باستخدام ٥٣۴65‏ fلم»‏ يمكنك استخدام مكتبات بايثون الشائعة دون استيرادها صراحة. الشىء الجيد هو 
أنه يستورد جميع المكتبات باتفاقياتها القياسية. على سبيل المثالء يتم استيراد 38085م مع الاسم 
مع ذلك» يجب أن تلاحظ أيضًا أنه من الممارسات الجيدة إبقاء 72710156 مقصورًا على مراحل النماذج 
الأولية. هذا لأنه بمجرد أن تقول. طور خط الأنابيب الخاص بك وافتحه. قد يواجه المستخدمون الآخرون 
بعض الصعوباتفي فهمه. 

ولكن إذا كنت ترغبفي بعض التجارب غير الرسمية» فلماذا لا تستخدمها بدلاً من كتابة جميع عمليات 


الاستيراد يدويًا؟ 


قرا المزيد: جاب1)11©. 


314 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https: //avichawla.substack.com/p/importing-modules-made-easy-with‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Co0l%20Tools/No-Libary-Importing.ipynb 


در 
ا 
01 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


5 تحليل بيانات التدفق باستخدام مخططات سانكي 
Analyse Flow Data With Sankey Diagrams‏ 


Sankey.py 


Los Angeles 


Washington 


in llinkedin.com/in/ay 


يمكن تفسير العديد من مهام تحليل البيانات المجدولة 202192515 02 إهانطهع على أنها تدفق بين 
المصدر والهدف. 


هناء لا يعد التحليل اليدوي للتقارير / البيانات المجدولة لرسم الأفكار هو النهج الصحيح عادة. 
بدلاً من ذلك تعمل المخططات الانسيابية 5ددتهمع 2ن 110557 كبديل رائعني مثل هذه الحالات. 


نظرًا لكونها جذابة بصريّاء فإنها تساعدك بشكل كبيرفني استخلاص رؤى مهمة من بياناتك. والتي قد تجد 
صعوبةفي استنتاجها من خلال النظر إلى البيانات يدويًا. 


على سبيل المثال» من الرسم البياني أعلاه» يمكن للمرء أن يستنتج بسرعة ما يلي: 


1. تستضيف واشنطن جزرًا من جميع الأصول. 


316 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


2 تستقبل نيويورك الركاب من لندن فقط. 
3. غالبية الرحلاتفي لوس أنجلوس تأتي من دبي. 
4. جميع المعالم السياحية من نيودلهي تذهب إلى واشنطن. 


تخيل الآن القيام بذلك بمجرد النظر إلى البيانات المجدولة. لن يستغرق الأمر وقنًا طويلاً فحسب» بل 
هناك أيضًا احتمالية أن تفوتك بعض الأفكار. 


لإنشاء رسم تخطيطي للانسياب» يمكنك استخدام 4101762771. يساعدك على تصور بيانات الانسياب 
باستخدام مخططات سانكي 012622235 '(ع5211. 
اقرأ المزيد هنا: التوثيق. 
المقالة: 
https://avichawla.substack.com/p/analyse-flow-data-with-sankey-diagrams‏ 
الكود: 


https://avichawla.substack.com/p/analyse-flow-data-with-sankey-diagrams 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


Feature Sklearn تتبع الميزات أصبح بسيطا في محولات‎ 6 
'1 عمكاعة:‎ Made Simple In Sklearn Transformers 


numpy_output.py 


sklearn.preprocessing 


PolynomialFeatu 


df 

CcOl_A col_B 0 
1 2 e” ٠. e, 9., 12., 16.[, 
5 1 . 6., 25., 30., 36-[[( 


PolynomialFeatures().fit_transform(df) 


pandas_output.py 


sklearn set_config 
set_config(tran ("36035م"‎ 


df 1 col_A col_B col_A^2 col_Acol 8 col_B^2 
col_A col_B 0 1.0 1.0 2.0 1.0 

1 1 10 4.0 

: 210 50 60 


2 5 6 : ١ 
PolynomialFeatures().fit_transform(df) E: 


in linkedin.com/in/avi-chawla 
في الآونة الأخيرةء أعلنت دتتدع.آ50116-1 عن إصدار أحد أكثر التحسينات المنتظرة.في الخلاصةء يمكن‎ 
.Pandas DataFrames لإخراج‎ sklearn الآن ضمان‎ 


حتى الآنء كانت محولات (Sklearn's transformers) Sklearn‏ مؤمنة لقبول Pandas DataFrame‏ 
كمدخلات. لكنهم عادوا دائمًا إلى مصفوفة NumPy‏ كإخراج. نتيجة لذلكء كان لابد من عرض الإخراج 
يدويًا مرة أخرى على عدطه:102621 .Pandas‏ هذاءفي بعض الأحيان» جعل من الصعب تتبع وتعيين 
أسماء للسمات. 


على سبيل المثال» ضعفي اعتبارك مقتطف الكود أعلاه. 


في numpy output. py‏ > من الصعب استنتاج اسم (أو حساب) عمود من خلال النظر إلى مصفوفة 
.NumPy‏ 
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ومع ذلك في الإصدار القادم» يمكن للمحول إرجاع .(pandas output.py) Pandas DataFrame‏ 
هذا يجعل أسماء ميزات التتبع بسيطة بشكل لا يصدق. 
اقرأ المزيد: صفحة الإصدار. 
المقالة: 
https://avichawla.substack.com/p/feature-tracking-made-simple-in-sklearn‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Sklearn/Sklearn%20- 
%20Pandas%20Output%20Demo.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 319 


Lesser-kıown ميزة أقل شهرة لسلاسل ۴ في بايثون‎ 77 
Feature of f-strings in Python 


Count 3 Don't write 
variable name 


+) نوع‎ = {COURT} کے‎ explicitly 
Fruit}") 


Fruit "Apple" 


t(f"Fruit = 


Add "=" in print(f"{Count = }") 
curly braces {} print(f"{Fruit = }") 


in linkedin.com/in/avi-chawla 
أثناء التصحيح عدنععدطءل. غالبا ما يطبع المرء اسم المتغير بشكل صريح بقيمته لتحسين فحص‎ 
الكود.‎ 


على الرغم من عدم وجود خطأني هذا النهج» إلا أنه يجعل بياناتك المطبوعة فوضوية وطويلة. 
توفر سلاسل 1 (وع32ته-4)ني بايثون حلاً أنيقًا لهذا الأمر. 
لطباعة اسم المتغير» يمكنك إضافة علامة يساوي (-)في الأقواس المتعرجة بعد المتغير. سيؤدي هذا إلى 
طباعة اسم المتغير مع قيمته ولكنه موجز ونظيف. 
المقالة: 
https://avichawla.substack.com/p/lesser-known-feature-of-f-strings‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Debugging/f-string-print-var-name.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 320 


8) لا تستخدم ۴0ع٣1٤.عمصنا‏ لقياس وقت التنفيذ +1002 


Use time.timeO To Measure Execution Time 


time.py 


perf_counter.py 


in linkedin.com/in/avi-chawia 


كثيرا ما تستخدم طريقة ()6 "أا من مكتبة الوقت لقياس وقت التنفيذ ع1ا 101†ا٤ع×ع.‏ 
ومع ذلك. فإن ()61106 ليس مخصصا لتوقيت الكود الخاص بك. بدلاً من ذلك الغرض الفعلي هو 
معرفة الوقت الحالي. هذاءني كثير من الأحيان. يعرض للخطر دقة قياس وقت التنفيذ الدقيق. 
الطريقة الصحيحة هي استخدام ():©8الامع_1#عم» التي تتعامل مع الوقت النسبي 206 12656ء5. 
وبالتالي» تعتبر الطريقة الأكثر دقة لتوقيت الكود الخاص بك. 
المقالة: 
https://avichawla.substack.com/p/dont-use-timetime-to-measure-execution‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Dont-Use- Time. Time.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 321 


9/) يمكنك الآن استخدام DA]1[:۴٤‏ مع واجهة برمجة 


Now You Can Use DALL:E With OpenAlI تطبيقات‎ 
OpenAlI API 


DALL:E API 


openai 
openai.api_key = "Your-API-Key" 
response openai. Image.create ( 
prompt="The city of Paris on Mars.", 
n = 


) 


image_url response['data'][01]['url'] 


in linkedin.com/in/avi-chawla 
.)OpenA1 ۸P1) 0مe‎ 1۸1 باستخدام واجهة برمجة تطبيقات‎ D۸11 ٠ 8 يمكن الآن الوصول إلى‎ 


أصدرت شركة آشدءم© مؤخرًا إعلانً كبيرًا.في الخلاصةء يمكن للمطورين الآن دمج نموذج تحويل 
النص إلى صورة الشهير من 28 :.1041.1 41دءعم0نفي تطبيقاتهم باستخدام 411 آلخدءم0. 


لتحقيق ذلك. اول حدد مفتاح 811 الخاص بك (تم الحصول عليه بعد التسجيل). بعد ذلك قم بتمرير 
مطالبة نصية امدطهإم 2ه لإنشاء الصورة المقابلة. 


322 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/now-you-can-use-dalle-with-openai‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data-Science/blob/main/ML- 
Al%20News/DALL%C2%B7E-AP!1.ipynb 
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0) مخطط الانحدار الخطي متعدد الحدود أصبح سهلا مع 
Polynomial Linear Regression Plot Made Easy Seaborn‏ 
With Seaborn‏ 


in linkedin.com/in/avi-chawla 
أثناء إنشاء مخططات مبعثرة كاهآم إعااةءي» غالبًا ما يهتم المرء بعرض الانحدار الخطي :ا‎ 
(البسيط عامممء أو متعدد الحدود ادن صهمراهم) على نقاط البيانات.‎ regression 


هناء يمكن أن يكون تدريب نموذج وتضمينه يدويّافي المخطط مهمة شاقة يجب القيام بها. 
بدلاً من ذلك. مع ()+10م128 من :ه5213. يمكنك إضافة انحدار إلى المخطط, دون تدريب نموذج 
حدد درجة كثير الحدود كمعامل "01061 ". سيضيف 5621011 الانحدار المقابل على مخطط التشتت. 


اقرأ المزيد هنا: .Seaborn Docs‏ 
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المقالة: 
https://avichawla.substack.com/p/polynomial-linear-regression-plot‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Poly-LR-Plot.ipynb 
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1 ] استرجع المخرجات المحسوبة مسبقا في ءارمس[ 
Notebook Retrieve Previously Computed Output In‏ 
Jupyter Notebook‏ 


: df.groupby ("col11").col2.mean( ( .reset_index() 


col1 col2 
A 40 
8 30 
© 50 


In [4]: [3]غتاه‎ 


out[ 4]: 
col1 col2 


A 4.0 
8 3.0 
© 50 


هذا بالفعل أحد أروع الأشياء التي تعلمتها عن 0s‏ 0ء [py ter Not‏ مؤخرًا. 
هل سبق لك أن كنتفي موقف نسيت فيه تخصيص النتائج التي تم الحصول عليها بعد إجراء بعض 
الحسابات لمتغير؟ إذا لم يكن هناك خيارء يتعين على المرء أن يعيد حساب النتيجة عن غير قصد وإسنادها 
إلى متغير لاستخدامها مرة أخرى. 
لحسن الحظء ليس عليك القيام بذلك بعد الآن! 
يوفر 1297101 قاموس "ادا©". والذي يمكنك استخدامه لاسترداد إخراج الخلية. كل ما عليك فعله هو 
تحديد رقم الخلية كمفتاح القاموس» والذي سيعيد الإخراج المقابل. أليس هذا راتعًا؟ 
اعرض نسخة فيديو من هذا المنشور عل 112160152 : رابط المنشور. 

المقالة: 

https://avichawla.substack.com/p/retrieve-previously-computed-output 
الكود:‎ 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Jupyter%20Tips/Retrieve-Cell-Output.ipynb 
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Parallelize Swifter مع‎ Pandas Apply0 öljlgo (182 
"Pandas ApplyO" With Swifter 


in linkedin.com/in/avi-chawla 


مكتبة 221025 ليس لديها دعم متأصل لموازاة 1126ء 11٣م‏ عملياتها. وبالتالي» فهي تلتزم دائمًا بحساب 
أحادي النواةء حتى عندما تكون النوى الأخرى خاملة. 


تزداد الأمور سوءًا عندما نستخدم ():13مم2 في 222025 ()/1مم2 ليست سوى حلقة متألقة. نتيجة 
لذلك. لا يمكنها حتى الاستفادة من التوجيه 77»0]011226101. 
الحل السريع للتوازي 7760011226101 هو استخدام swifter‏ بدلاً من ذلك. 
يتبح لك 50161 تطبيق أي دالة على عدمه 10032 22025 بطريقة متوازية. ونتيجة لذلكء فإنه يوفر 
مكاسب كبيرةني الأداء مع الحفاظ على البّنية القديمة. كل ما عليك فعله هو استخدام 
df.swifter.apply‏ بدلاً من لإامم01.3. 
اقرأ المزيد هنا: ږ)Do .Swifter‏ 
المقالة: 
https://avichawla.substack.com/p/parallelize-pandas-apply- with-swifter‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Faster-Apply- With-Swifter%20.ipynb 
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3] إنشاء إطار بيانات خالي من المشاكل باستخدام الحافظة 
Create DataFrame Hassle-free By Using Clipboard‏ 


Step 2: Read in 


Copy Table 


in linkedin.comMinlavi-chawla 
يعتقد العديد من مستخدمي 5 أنه لا يمكن تحميل إطار بيانات ٥إهإ۴هة( إلا من القرص.‎ 


تخيل أن المرء يريد إنشاء DataFrame‏ من بيانات مجدولة مطبوعة على موقع ويب. هناء من المرجح 
أن يتم إغراءهم بنسخ المحتويات إلى ملف 0517 وقراءته باستخدام طريقة (الاقع_ 7830 '2832035. 
لکن هذا ليس نهجًا مثاليًا هنا. 

بدلاً من ذلك» باستخدام طريقة (60370)0مذاء_30ع . يمكنك التخلص من خطوة 0537 تمامًا. 


تتيح لك هذه الطريقة إنشاء 10262122:26 من البيانات المجدولة 0262 6211135 المخزنةفي مخزن 
الحافظة نا 0214منآه. وبالتالي» تحتاج فقط إلى نسخ البيانات واستدعاء الطريقة لإنشاء إطار 
بيانات. هذا أسلوب أنيق يوفر الكثير من الوقت. 
اقرأ المزيد هنا: وع1(0 222025. 
المقالة: 
https://avichawla.substack.com/p/create-dataframe-hassle-free-by-using‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/DataFrame-From-Cipboard.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 328 


Run قم بتشغيل دلیل مشروع بايثون كسكريبت‎ )4 
Python Project Directory As A Script 


© © Directory 


© © Directory 


dummy_project dummy_project 
إ]‎ model.py e سا‎ model. py 
| app.py | __main__.py¥ 


5 validate. py | validate. لام‎ 


preprocess.py‏ ا preprocess.py‏ ا 


© © Terminal © © Terminal 


5 python dummy_project/app.pYy $ python dummy_project 
Preprocessing Done! 

Model Trained! 

Results Validated! 


Preprocessing Done! 
Model Trained! 
Results Validated! 


in 
يتم تنفيذ سكريبت بايثون عندما ندير ملف لإم. .في المشاريع الكبيرة التي تحتوي على العديد من‎ 
الملفات. غالبًا ما يكون هناك مصدر (أو قاعدة) بايثون نبدأ منه برنامجنا.‎ 
لجعل الأمور أكثر بساطةء يمكنك بدلاً من ذلك إعادة تسمية هذه القاعدة إلى لام. 50318. نتيجة لذلك‎ 
يمكنك تنفيذ خط الأنابيب بأكمله عن طريق تشغيل الدليل الأصلى نفسه.‎ 
هذا موجز ويسهل أيضًا على المستخدمين الآخرين استخدام مشروعك.‎ 
المقالة:‎ 
https://avichawla.substack.com/p/run-python-project-directory-as-a 
الكود:‎ 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Run-Directory-As-Script.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 
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5) فحص تدفق البرنامج باستخدام Inspect IceCream‏ 


Program Flow with IceCream 


Terminal 


5 python file.py 


in linkedin.com/in/avızchawla 
غا ما يكتب المرء العديد من عبارات ()٤١أ١٣صم لفحص تدفق البرنامج‎ .debugging أثناء التصحيح‎ 
.11 هذا صحيح بشكل خاص عندما يكون لدينا العديد من شروط‎ .مroعgram'‎ 7 


يمكن أن يكون استخدام عبارات ()©16 الفارغة من مكتبة ۳٠۲٥ء1‏ بديلاً أفضل هنا. يقوم بإخراج 
العديد من التفاصيل الإضافية التي تساعدفي فحص تدفق البرنامج. 
يتضمن هذا رقم السطرء واسم الدالة» واسم الملف. وما إلى ذلك. 
اقراً المزيدفي مدونتي على 2/160111172. 
المقالة: 
https://avichawla.substack.com/p/inspect-program-flow-with-icecream‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Debugging/Inspect-Flow.ipynb 
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Appاy لا تقم بإنشاء أعمدة شرطية في 5هلصدط مع‎ 6 
Don't Create Conditional Columns in Pandas with 
Apply 

Apply 


assign_clLass (num) : 


num>0.5: 
"Class A" 


"013525 85” 


df.col1.apply(assisn_class) 


Numpy Where 


numpy np 


If condition 


is True‏ ا سل 
A",‏ 01355" 
"class 8"( If condition‏ 
is False‏ 


in linkedin.com/in/avirchawla 


أثناء إنشاء أعمدة شرطيةفي 221:025. نميل إلى استخدام طريقة ()رام مه طوال الوقت تقريبًا. 


ومع ذلك. فإن (0)0ق1م ني 222025 ليست سوى حلقة متألقة. نتيجة لذلك. فإنه يخطئ الهدف الكامل 


من التوجيه 0112261012]أ0ع77. 

بدلاً من ذلك. يجب عليك استخدام طريقة ()ع181©1.م12 لإنشاء أعمدة شرطية. إنها تقوم بنفس 
الوظيفة ولكنها سريعة للغاية. 

يتم تمرير الحالة كوسيطة أولى. ويتبع ذلك بالنتيجة إذا تم تقييم الشرط إلى 136" (الوسيطة الثانية) 
و1215 (الوسيطة الثالثة). 


اقرأ المزيد هنا: مستندات ٥۴y‏ دہںN×.‏ 
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المقالة: 
https://avichawla.substack.com/p/dont-create-conditional-columns-in‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Conditional-Columns.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 332 


Pretty Plotting With Pandas التخطيط الجميل مع‎ 7 


Pandas 


Plotly Backend 


035 pd 
pda.options.plotting.backend "5160601 
df.plot(kind='scatter', 


,"لاوج" 
"مامع" 


1 col3 


© Class A © 
© 


© ClassB 


0.8 


in linkedin.com/in/avi-chawla 
هي واجهة برمجة التطبيقات الافتراضية للتخطيطفي وهل ة۴. هذا يعني أنه يمكنك إنشاء‎ tp 
مخطط ط10016م1/126في 221025. دون حتى استيرادها.‎ 


على الرغم من ذلك. كانت هذه المخططات دائمًا أساسية وليست جذابة بصريًا. غالبا ما يُعتبر الرسم 
البياني. بمخططاته الجميلة والتفاعلية بديلاً مناسبًا. لكن التعرف على مكتبة جديدة بالكامل وبنيتها 
اللغوية يمكن أن يستغرق وقتا طويلاً. 

لحسن الحظ تسمح لك 222025 بتغيير الخلفية الافتراضية للتخطيط. وبالتالي» يمكنك الاستفادة من 
مكتبات التصور التابعة لجهات خارجية للتخطيط باستخدام 222025. هذا يجعل من الصعب إنشاء 
مخططات أجمل مع الحفاظ على بناء الجملة القديم تقريبًا. 
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المقالة: 
https://avichawla.substack.com/p/pretty-plotting-with-pandas‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Plotly-Backend-in-Pandas.ipynb 
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Build Sklearn قم ببناء نماذج أساسية بسهولة مع‎ )8 
Baseline Models Effortlessly With Sklearn 


dummy.py‏ م 


sklearn . dummy DummyClassifier 
dummy_clf DummyClassif ier ( 
st "most_frequent" 


71212007 ¥ 


dummy_clf .predict (X) 
array([0, ©, ©, ©, 0]) 


dummy_clf.score(X, ¥) 


in linkedin.com/in/avi-chawla 
قبل تطوير نموذج تعلم آلي معقد. من المنطقي دائمًا إنشاء خط أساسي ع<ذاء5ةط أولاً.‎ 


يعمل خط الأساس كمعيار للنموذج الهندسي. علاوة على ذلك فإنه يضمن أن النموذج أفضل من عمل 
تنبؤات عشوائية (أو ثابتة). لكن بناء خطوط أساس باستراتيجيات مختلفة (عشوائی» ثابت» أكثر شيوعاء 
وما إلى ذلك) يمكن أن يكون مملاً. 
بدلاً من ذلك. فإن ()1011121123:0:1355111©1 ر)(DummyRegressor‏ في earnاSk‏ يجعلها سهلة 
ومباشرة تمامًا. يمكنك تحديد السلوك المحدد للخط الأساسي باستخدام المعلمة [5]12668. 
اقرأ المزيد هنا: التوثيق. 
المقالة: 
https://avichawla.substack.com/p/build-baseline-models-effortlessly‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Sklearn/Baseline-Model.ipynb 
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Fine- Python 3.11 تتبع الأخطاء بدقة باستخدام‎ )9 
grained Error Tracking With Python 3.11 


Error Tracking 


$ python expt.py 
Traceback (most recent call Last): 
File "expt.py", line 11, module 
print (function (a=2, 0(( 
File "expt.py", Line 6, function 


(b a) (a b) 


ZeroDivisionError: division by zero 


in linkedin.com/in/avi-chawla 
تم إصدار 3.11 277101 اليوم» وتم تقديم العديد من الميزات المثيرة.‎ 


على سبيل المثال» تم تنفيذ العديد من تحسينات السرعة. وفقا للإصدار الرسمي» تعد 3.11 2/602 
في المتوسط. أسرع بنسبة 25/ من 3.10 Python‏ . 


اعتمادًا على عملك. يمكن أن تصل إلى 60-10/ أسرع. 
واحدة من أروع الميزات هي تتبع الأخطاء بدقة .fıne-grained error‏ 


في 3.10 2700 وما قبله. أظهر المترجم السطر المحدد الذي تسببفي الخطأ. هذاءني كثير من الأحيان. 
تسببفي الغموض أثناء التصحيح .debugging‏ 


في 3.11 «Python‏ سيشير المترجم الفوري إلى الموقع الدقيق الذي تسببفي حدوث الخطأ. سيساعد 
هذا المبرمجين بشكل كبير أثناء تصحيح الأخطاء. 


اقرأ المزيد هنا: الإصدار الرسمى. 


36 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/fine-grained-error-tracking-with‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Python/Python3.11-Update.ipynb 
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0 اعثر على الكود الخاص بك مختبئًا في بعض النوتبوك من 
Jupyter‏ بسهولة Find Your Code Hiding In Some‏ 
Jupyter Notebook With Ease‏ 


numpy_lr.ipynb: "z 


numpy_T pynb: " 


in linkedin.com/in/avi-chawla 
غالبا ما يشير المبرمجون الذين يستخدمون إها رمد[ إلى النوتبوك القديمة الخاصة بهم للعثور على جزء‎ 
من التعليمات البرمجية.‎ 


ومع ذلك. يصبح الأمر مملا عندما يكون لديهم العديد من الأشياء التي يبحثون عنها ولا يمكنهم تذكر 
النوتبوك المحدد الذي يهمهم. اسم الملف طنانقم126101601.1] و ... و 
Untitled 82.ipynb‏ . لا تجعل الأمر أسهل. 


الأمر "٠٣ع"‏ هو حل أفضل بكثير لهذا الأمر. أعلم جد أنه يمكنك استخدام "٠٣ع‏ "في سطر الأوامر 
للبحثفي النوتبوك. كما تفعلفي الآخرين (ا×.. على سبيل المثال). هذا يوفر الكثير من العمل اليدوي 
والوقت. 


ملاحظة. كيف تجد بعض التعليمات البرمجية المكتوبة مسبقافي النوتبوك الخاصة بك (إن لم يكن يدويًا)؟ 
المقالة: 
https://avichawla.substack.com/p/find-your-code-hiding-in-some-jupyter‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Jupyter%20 Tips/Find-Hidden-Code.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 338 


Restart the أعد تشغيل الكيرنل دون فقد المتغيرات‎ )1 
Kernel Without Losing Variables 


Notebook.ipynb 


[1]: value 


[2]: %store value 


Notebook.ipynb 


store -r value 


Restart 


: value 


in linkedin.com/in/avi-chawla 
أثناء العملفي ع110650601 ءارما[ قد ترغبفي إعادة تشغيل الكيرنل(النواة) ٥د٣٠ لعدة أسباب.‎ 
ولكن قبل إعادة التشغيل» غالبًا ما يميل المرء إلى تفريغ كائنات البيانات على القرص لتجنب إعادة حسابها‎ 
فى التشغيل التالى.‎ 
يعمل الأمر السحري "560:6" كحل مثالي لذلك. هناء يمكنك الحصول على قيمة محسوبة مسبقاً حتى‎ 


بعد إعادة تشغيل النواة الخاصة بك. علاوة على ذلك لن تحتاج أبدا إلى الخوضفي متاعب تفريغ الكائن 
على القرص. 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


How to Read بكفاءة‎ CSV كيف تقرأ عدة ملفات‎ ))2 
Multiple CSV Files Efficiently 


Pandas_read.py 


Run-time: 
36 seconds 


in linkedin.com/in/avi-chawla 
متعددة ونقلها إلى فريق علم البيانات‎ C58۷ في كثير من الحالات» غالبًا ما يتم تقسيم البيانات إلى ملفات‎ 
التعلم الآلي لاستخدامها.‎ / 


نظرًا لأن 2895 لا يدعم الموازاة 212111122001م. يتعين على المرء تكرار قائمة الملفات وقراءتها 
واحدة تلو الأخرى لمزيد من المعالجة. 


يمكن ل "10162621" توفير حل سريع لهذا الغرض. بدلاً من قراءتها بشكل متكرر مع 121025: يمكنك 


استخدام 10286216 لقراءة مجموعة من الملفات. كونه متوازيًاء فإنه يوفر تعزيرًا ملحوظًافي الأداء مقارنة 


.Pandas ب‎ 


لا يقتصر اكتساب الأداء على الإدخال / الإخراج فحسب. بل يتم ملاحظتهني العديد من العمليات 
المجدولة الأخرى أيضًا. 


اقرأ المزيد هنا: وع120 ع1ط122621'2. 


340 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 
https://avichawla.substack.com/p/how-to-read-multiple-csv-files-efficient‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Read-Multiple-CSVs.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 341 


Elegantly Plot the ارسم بأناقة حدود قرار المصنف‎ )/3 
Decision Boundary of a Classifier 


2 
2 
5 
2 
0 
0 
ا 


Feature 1 


يمكن أن يكشف رسم حدود القرار 5011023157 06151012 للمصنف ١ع!ا1fووهآاء‏ عن العديد من الرؤى 
الحاسمة حول أدائه. 
هناء غاليًا ما تعتبر المخططات المظللة بالمنطقة 10م 2060ط2-5هنعء: اختيارًا مناسبًا لأغراض 
التصور. ولكن» يمكن أن يكون إنشاء واحدة بشكل صريح مستهلكا للوقت ومعقدا للغاية. 
بمجرد تزويده بالنموذج والبيانات. 
المقالة: 
https://avichawla.substack.com/p/elegantly-plot-the-decision-boundary‏ 


الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Classifier%20Decision%20Boundary.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 342 


An Sklearn¬n طريقة أنيقة لاستيراد المقاييس من‎ )4 
Elegant Way to Import Metrics From Sklearn 


in linkedin.com/in/avi-chawla 
غالا ما يستورد المرء مقاييس 11661105 متعددة لتقييم نموذج. على الرغم‎ «scikit- Learn أثناء استخدام‎ 
من عدم وجود خطأفي هذه الممارسة. إلا أنها تجعل الكود غيز أنيق ومشوش 0 مع زيادة تحميل الأسطر‎ 
القليلة الأولى من الملف بالواردات.‎ 


بدلاً من استيراد المقاييس بشكل فردي» يمكنك استخدام طريقة ()ا©"8©66_5601. هناء يمكنك تمرير 
اسم المقياس كسلسلة 5613128 وإرجاع كائن مسجل عع زه إءإoعء‏ لك. 


اقرأ المزيد هنا: صفحة «تتدع.124-1ن0 5. 
المقالة: 
https://avichawla.substack.com/p/an-elegant-way-to-import-metrics‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Sklearn/Metric%20Import.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 343 


Pandas Configure تكوين معدء511 لإخراج إطار بيانات‎ )5 
Sklearn To Output Pandas DataFrame 


Output is 
Pandas 
DataFrame 


in linkedin.com/in/avi-chawla 
في الآونة الأخيرةء أعلنت ددمدء.50126-1 عن إصدار أحد أكثر التحسينات المنتظرة.في الخلاصة؛ يمكن‎ 
.1011111197 بدلاً من مصفوفات‎ Pandas DataFrames الآن ضمان 5116232 لإخراج‎ 
حتى الآنء كانت محولات :511621 مؤمنة لقبول 44۴4 2211035 كمدخلات. لكنهم عادوا دائمًا‎ 
1222025 إلى مصفوفة ود« كإخراج. نتيجة لذلك. كان لابد من عرض الإخراج يدويًا مرة أخرى على‎ 
.DataFrame 
بدلاً‎ Pandas DataFrame الآن» ستسمح واجهة برمجة التطبيقات ]5©66_011611 للمحولاات بإخراج‎ 
من ذلك:‎ 
سيؤدي هذا إلى جعل خطوط الأنابيب الجارية على 10221731065 أكثر سلاسة. علاوة على ذلك سيوفر‎ 
طرقًا أفضل لتتبع أسماء الميزات.‎ 
المقالة:‎ 
https://avichawla.substack.com/p/configure-sklearn-to-output-pandas 
الكود:‎ 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Sklearn%20-%20Pandas%20Output.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 344 


Display Pandas في‎ AppIy0 عرض شريط التقدم مع‎ )6 
Progress Bar With ApplyO in Pandas 


Without Progress 


pandas pd 


df.apply(func) 


With Progress 


pandas pd 


tqdm. notebook tqdm 
tqdm. pandas ( ) 


3 017 /لإامم20952655_3م.‎ ) func) 


100% ÎÎ ı00 0000/1000000 [00:04<0 0:00, 281929.551/5[ 


in linkedin.com/in/avi-chawla 


أثناء تطبيق طريقة على 1022112526 باستخدام ()1مصه. لا يمكننا رؤية التقدم والوقت المتبقي المقدر. 
لحل هذه المشكلة. يمكنك بدلاً من ذلك استخدام ()yآrogress_appام‏ من 6010113 لعرض شريط 
تقدم أثناء تطبيق الطريقة. 
قرا المزيد هنا: 1]]16©. 
المقالة: 
https://avichawla.substack.com/p/display-progress-bar-with-apply-in‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Apply%20-%20Progress%20Bar.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 345 


7)/) تعديل دالة أثناء وقت التنفيذ Modify a Function‏ 


During Run-time 


lHinkedin-comAn/avi-chawla‏ مذ 


هل سبق لك أن كنتفي موقف ترغب فيه ني إضافة المزيد من التفاصيل إلى كود قيد التنفيذ بالفعل؟ 


يُلاحظ هذا عادةني التعلم الآلي حيث غالبًا ما ينسى المرء طباعة جميع تفاصيل / مقاييس التدريب 
الأساسية. لا يعد تنفيذ الكود بالكامل مرة أخرى. خاصة عندما يكون قيد التنفيذ لبعض الوقت. أسلويًا 
مثاليًا هنا. 

إذا كنت ترغبفي تعديل دالة أثناء التنفيذى فقم بتزيينها بمصمم إعادة التحميل reloading decorator‏ 
(10201128ع1©). نتيجة لذلك. سيعيد بايثون تحميل الدالة من المصدر قبل كل تنفيذ. 


رابط لإعادة التحميل: 011111 . 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 346 


Regression 2107 مخطط الانحدار أصبحت سهلة مع‎ )8 
Plot Made Easy with Plotly 


in linkedin.com/in/avi-chawla 
أثناء إنشاء المخططات المبعثرة 1085م إماtوءي غالا ما يهتم المرء بعرض الانحدار الخطي ه112‎ 
البسيط على نقاط البيانات.‎ 0 


هناء يمكن أن يكون تدريب نموذج وتضمينه يدويّافي المخطط مهمة شاقة يجب القيام بها. 
بدلا من ذلك» باستخدام ااه[ يمكنك إضافة خط انحدار عصنا 02زووعمعء: إلى المخطط. دون 
تدريب نموذج صريح. 
اقرأ المزيد هنا. 
المقالة: 
https://avichawla.substack.com/p/regression-plot-made-easy-with-plotly‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Plotting/Plotly%20Regression%20Plot.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


NumPy الانحدار الخطي متعدد الحدود باستخدام‎ 9 
Polynomial Linear Regression with NumPy 


Sklearn 


model LinearRegression().fit(X, لا‎ 
xX np.hstack((X, X**2)) 
model LinearResression().fit(X, ١ 


XxX 
inp np.array([[X, x*x*2]]) 


model.predict (inp) 


NumPy 


coeff np.polyfit(X, رلا‎ 
model np.poly1d (coeff) 


inp 
model( inp) 
10.4 


in linkedin.com/in/avi-chawla 


يعد الانحدار الخطي متعدد الحدود Polynomial linear regression‏ باستخدام Sklearn‏ مملاً حيث 
يتعين على المرء ترميز ميزاته بشكل صريح. يمكن أن يصبح هذا الأمر صعبًا عندما يتعين على المرء أن 
يبني بشكل متكرر نماذج متعددة الحدود ذات درجة أعلى. 

طريقة ()20137111 من 11111129 هى بديل ممتاز لذلك. هناء يمكنك تحديد درجة كثير الحدود كمعامل. 
نتيجة لذلك» يقوم تلقائيًا بإنشاء ميزات كثيرة الحدود المقابلة. 

الجانب السلبي هو أنه لا يمكنك إضافة ميزات مخصصة مثل المثلثية ع3ماع020ع638/ اللوغاريتمية 
عتطتط تتدع10. بمعنى آخر. أنت مقيد بسمات كثيرة الحدود فقط. ولكن إذا لم يكن هذا هو مطلبك. 
فيمكن أن تكون طريقة ()2013/116 من 13329 طريقة أفضل. 


اقرا المزيد من هنا. 


348 علم البيانات: 200 نصيحة في بايثون وعلم البيانات 


المقالة: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Sklearn/LinearReg%20NumPy%20vs%20Sklearn.ipynb 


الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Sklearn/LinearReg%20NumPy%20vs%20Sklearn.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 349 


0) قم بتعديل نوع بيانات الأعمدة المتعددة مرة واحدة 
Alter the Datatype of Multiple Columns at Once‏ 


Multiple 
Calls 


df.astype({ 
Single OTE 
Call "col3":np.float16} 


) 
in linkedin.com/in/avi-chawla‏ 
تتمثل إحدى الطرق الشائعة لتغيير نوع بيانات ء مهل الأعمدة المتعددةفي استدعاء طريقة ()#صرائج 
بشكل فردي لكل عمود. 


على الرغم من أن الطريقة تعمل كما هو متوقع» إلا أنها تتطلب استدعاءات دوال متعددة والمزيد من 
التعليمات البرمجية. قد يكون هذا صعبًا بشكل خاص عندما تريد تعديل نوع البيانات للعديد من الأعمدة. 


يقة أفضلء يمكنك تكثيف كل التحويلاتفي استدعاء دالة واحدة. يتم تحقيق ذلك عن طريق تمرير 
قاموس لتعيين نوع العمود إلى نوع البيانات» كما هو موضح أدناه. 
المقالة: 
https://avichawla.substack.com/p/alter-the-datatype-of-multiple-columns‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Datatype-Alter.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 0 


در 
O1‏ 


1) نوع البيانات لمعالجة أعمدة القيم المفقودة في 5ه20ة2 
Datatype For Handling Missing Valued Columns in‏ 


Pandas 


NaN column 


len(df.col1) 


ten(df[df.col1.isna()1]) 


Sparse Datatype 


df.col1.memory_usase() 


0101 df.col1.astype("Ssparse[float32]") 


df.col1.memory_usage ) ( 


in linkedin.com/in/avi-chawla 
فإن 132025 توفر نوع بيانات 6م036267 محددًا‎ » NN إذا كانت بياناتك تحتوي على أعمدة ذات قيمة‎ 
يسمى نوع البيانات المتفرقة عم026267 ع50215.‎  اهليثمتل‎ 


يكون هذا مفيدًا بشكل خاص عند العمل مع مشاريع كبيرة تعتمد على البيانات مع العديد من القيم 
المفقودة 721115 111155128. 


يقارن مقتطف الكود استخدام الذاكرة لأنواع البيانات 41044 والمتفرقةفي 2202025. 
المقالة: 
https://avichawla.substack.com/p/datatype-for-handling-missing-valued‏ 
الكود: 


https://avichawla.substack.com/p/datatype-for-handling-missing-valued 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 1 


در 
01 


Parallelize Pandas Pandarallel مع‎ Pandas قم بموازنة‎ (202 
with Pandarallel 


Pandarallel.py 


pandaralLlel pandarallel 
pandarallel.initialize() 


add_row (row) : 
sum (row) 


Apply vs Parallel Apply 


df.apply(add_row, 


df.parallel_apply(add_rouw, 


in linkedin.com/in/avi-chawla 
عمليات 222025 لا تدعم الموازاة 22116112260م. نتيجة لذلك. فإنه يلتزم بحساب أحادي النواة‎ 
حتى عند توفر النوى الأخرى. وهذا يجعلها غير ملائمة وصعبةء لا سيمافي مجموعات البيانات الكبيرة.‎ 


يسمح لك "221102121161" بموازنة عملياته مع نوى متعددة لوحدة المعالجة المركزية ٥۲0‏ - عن طريق 
تغيير سطر واحد فقط من التعليمات البرمجية. تتضمن الطرق المدعومة 0رآممة و ()17122226[م مهدو 
.rollingO gmap) gygroupbyO‏ 


اقرأ المزيد: .Git]1 ub‏ 
المقالة: 
https://avichawla.substack.com/p/parallelize-pandas-with-pandarallel‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Pandarallel.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 2 


در 
O1‏ 


Why you ©0557 لماذا لا يجب خزن إطار البيانات في ملف‎ 3 
should not dump DataFrames to a CSV 
Save DF 


df 
df. to_CSV(fILe. CSV) 


df.to_pickle("file.pickle") 


df.to_parquet ("file.parquet") 


in linkedin.com/in/avi-chawla 
لكن هل تدرك قيودها؟‎ .Pandas يُستخدم تنسيق ملف 517 على نطاق واسع لحفظ إطارات بيانات‎ 
على سبيل المثال لا الحصر:‎ 
لا يخزن ملف 2517) معلومات نوع البيانات. وبالتالي. إذا قمت بتعديل نوع بيانات العمود‎ .1 
(الأعمدة). وحفظتهني ملف 05۷. ثم التحميل مرة أخرى. فلن يقوم 2795025 بإرجاع نفس‎ 
أنواع البيانات.‎ 
لا یتم تحسين حفظ عدعءطه10 إلى تنسيق ع1 0517 مثل التسيقات الأخرى المدعومة‎ .2 
بواسطة 122025. وتشمل هذه غع22011؛ ع1ك1ء1. إلخ.‎ 


بالطبع» إذا كنت بحاجة إلى عرض بياناتك خارج بايثون (1ءء×8. على سبيل المثال)ء فأنت ملزم 
باستخدام ملف 05۷. ولكن إذا لم يكن الأمر كذلك. ففضل تنسيقات الملفات الأخرى. 


قراءة إضافية: لماذا توقفت عن خزن إطارات البياناتفى ملف CS۷‏ ولماذا يجب عليك ذلك أيضًا. 
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المقالة: 
https://avichawla.substack.com/p/why-you-should-not-dump-dataframes‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Dont-Dump-To-CSV.ipynb 


در 
ل 
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Save Memory with حفظ الذاكرة مع مولدات بايثون‎ )4 
Python Generators 


List.py û Generator.py‏ مع 


١ sys import getsizeof from sys import getsizeof 


My_liSt = [1 TOE 1 1f 10+ my_gen = (i fo 


getsizeof (my_list) getsizeof (my_gen) 


sum(my_list) sum(my_gen) 


Eolololo[olo) HH 49999995000000 


sum(my_gen) 


in linkedin.com/in/avi«chawla 
إذا كنت تستخدم متكررات ثابتة 166215 5620 كبيرةفي بايثون» فقد لا تكون القائمة 1156 هي الخيار‎ 
الأمثلء خاصةفي التطبيقات المقيدة بالذاكرة.‎ 


قائمة تخزن المجموعة بأكملهاني الذاكرة. ومع ذلك. يقوم المولد 6172601ع6ع بحساب وتحميل عنصر 
واحدفي وقت واحد فقط عندما يكون ذلك مطلويًا. هذا يوفر كلاً من الذاكرة ووقت إنشاء الكائن. 


بالطبع» هناك بعض القيود على المولدات أيضًا. على سبيل المثالء لا يمكنك استخدام عمليات القائمة 
غ115 الشائعة مثل ()6620مم2 والتقطيع 511128 وما إلى ذلك. 
علاوة على ذلكءني كل مرة تريد فيها إعادة استخدام عنصر» يجب إعادة إنشائه (انظر :Generator. py‏ 
السطر 12). 
المقالة: 
https://avichawla.substack.com/p/save-memory-with-python- generators‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Memory%20Optimization/Generators.ipynb 
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5)) لا تستخدم 1520م لتصحيح التعليمات البرمجية 
الخاصة بك. .Don't use printO to debug your code‏ 


التصحيح 1011185128 باستخدام جمل الطباعة 50266171125 1112م هو نهج فوضوي وغير أنيق. من 
المربك تعيين الإخراج إلى بيان التصحيح المقابل له. علاوة على ذلك» يتطلب تنسيق يدويًا إضافيًا لفهم 
الإخراج. 


مكتية j "icecream"‏ بايثون هي بديل ممتاز لذلك. فهو يجعل تنصحيح الأخطاء سهلاً وقابكا للقراءة. مع 
الحد الأدنى من التعليمات البرمجية. تتضمن الميزات تعبيرات الطباعة» وأسماء المتغيرات» وأسماء 
الدوال» وأرقام الأسطر وأسناء الأسمائ وغيرها الكثير. 
ملاحظة. مقتطف الكود يعطي فقط شرحا موجزا. ومع ذلك. فإن الدوال الفعلية أكثر قوة وأناقة مقارنة 
بالتصحيح باستخدام (11260م. 
المزيد عن 1060156212 هنا. 
المقالة: 
https://avichawla.substack.com/p/dont-use-print-to-debug-your-code‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Debugging/Icecream.ipynb 


علم البيانات: 200 نصيحة في بايثون وعلم البيانات 356 


6) ابحث عن كود بايثون غير المستخدم بسهولة ۴1۸۵4 
Unused Python Code With Ease‏ 


code.py 


sum_func (arr) : 
١ sum(arr) Termina 


nax_func (arr): 1 
ef max_func(arr) $ vulture code.py 
n max(arr) 


code.py:4: unused function 'max_func' 


name = "__main__" 
ga e a code.py:10: unused variable '138' 


input_arr 1417 57 57 2: 91 
flag 1 


input_sum sum_func(input_arr) 
print (input_sum) 


in linkedin.com/in/avi-chawla 


مع زيادة حجم قاعدة الشفرة الخاصة بك» يزداد عدد مثيلات التعليمات البرمجية غير المستخدمة. هذا 


بک راتا وإيجازفناء 
باستخدام وحدة "۵٣ں‏ ا[ں "ني بایثون» يمكنك تحديد كود ميت 0006 0620 (غير مستخدم 0111211560 
في خط الأنابيب الخاص بك كما هو موضحفي مقتطف الكود. 
المقالة: 
https://avichawla.substack.com/p/find-unused-python-code-with-ease‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Coo0l%20T'ools/Dead-Code.ipynb 
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در 
01 


Define the عرف نوع البيانات الصحيخ للأعمدة الفتثوية‎ )7 
Correct Data 6م17‎ for Categorical Columns 


Reduce Memory Usage 


Categorical Col 


df . 6870612 . unique ) ) 


linkedin.com/in/avi-chawla‏ ما 
إذا كانت بياناتك تحتوي على أعمدة فتوية قدت تاآهء 012621ع026: فلا يجب أن تمثلها كنوع بيانات 
.int / string‏ 
بدلاً من ذلك» يوفر 23085 نوع بيانات محستا على وجه التحديد للأعمدة الفئوية. يكون هذا مفيدًا 
بشكل خاص عند العمل مع مشاريع كبيرة تعتمد على البيانات. 
يقارن مقتطف الكود استخدام الذاكرة للسلسلة النصية 5053 وأنواع البيانات الفئويةفي 229025. 
المقالة: 
https://avichawla.substack.com/p/define-the-correct-datatype-for-categorical‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Categorical-Datatype.ipynb 
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Transfer Jupyter Notebooks نقل المتغيرات بين‎ (8 
Variables Between Jupyter Notebooks 


Notebook 1 


Notebook 2 


«store -r value 


t (value) 


in linkedin ,com/ivavi-chawla 


أثناء العمل مع العديد من كمه طءغه مرم نل قد تحتاج إلى مشاركة الكائنات بينها. 
باستخدام الأمر السحري "56026" يمكنك نقل المتغيرات عبر 11066150015 دون تخزينها على القرص. 
ملاحظة. يمكنك أيضًا إعادة تشغيل النواة (الكيرنل) واسترداد متغير قديم باستخدام "عه560". 
المقالة: 
https://avichawla.substack.com/p/transfer-variables-between-jupyter‏ 
الكود: 


https://avichawla.substack.com/p/transfer-variables-between-jupyter 
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Why Pandas مع‎ CSV لماذالا يجب عليك قراءة ملفات‎ )9 
You Should Not Read CSVs with Pandas 


Pandas Datatable 


"file.csv" file "file.csv" 


datatable dt 
035 pd 
dt.fread(file) 


df pd.read_csv(file df.to_pandas() 


تلتزم 22025 بحساب أحادي النواة. مما يجعل عملياتها غير فعالة للغاية» لا سيمافي مجموعات البيانات 


تعد مكتبة "0262601" في بايثون بديلاً ممتازا بواجهة برمجة تطبيقات ۸۲1 تشبه 221025. دعم معالجة 
البيانات متعدد الخيوط يجعله أسرع من 2252025. 


يوضح مقتطف الكود مقارنة وقت التشغيل لإنشاء "102012226 "Pandas‏ من ملف 0557© باستخدام 
Pandas‏ و .Datatable‏ 


المقالة: 
https://avichawla.substack.com/p/why-you-should-not-read-csvs-with‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Pandas/Fast-CSV-Read.ipynb 
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9) تعديل كود بايثون أثناء وقت التنفيذ Modify Python‏ 
Code During Run-Time‏ 


Odd 


s Odd 


Odd 


is Odd 

5 000 
5 000 
5 000 


5 Even 
000 
Even 

s Odd 

s Even 

s Odd 


from time import sleep 
from reloading import reloading 


for number in reloading(range(100)) : 


if number % 2: 

print (f"{number} is Odd") 
else: 

pass 


from time import sleep 
from reloading import reloading 


for number in reloadins(range(100)) : 


if number % 2: 

print (f"{number} is Odd") 
else: 

print (f"{number} is Even") 


هل سبق لك أن كنتفي موقف أردت فيه إضافة المزيد من التفاصيل إلى كود قيد التنفيذ بالفعل (طباعة 
المزيد من التفاصيلفي حلقة :40: على سبيل المثال)؟ 


لا يعد تنفيذ الكود بالكامل مرة أخرى» خاصة عندما يكون قيد التنفيذ لبعض الوقت. هو الأسلوب المثالي 


هنا. 


باستخدام مكتبة '1020128ع2 "ني بايثون. يمكنك إضافة المزيد من التفاصيل إلى التعليمات البرمجية قيد 
التنفيذ دون فقد أي تقدم موجود. 
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المقالة: 
https://avichawla.substack.com/p/modify-python-code-during-run-time‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Coo0l%20Tools/Modify%20Code%20During%20Run- 
time.ipynb 
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Handle Missingno التعامل مع البيانات المفقودة مع‎ ) 0 
Missing Data With Missingno 


إذاكنت ترغبفي تحليل القيم المفقودة 721115 1211551118في مجموعة البيانات الخاصة بك فقد لا يكون 
25 خخيارًا مناسًا. 


تخفي أساليب 222035 العديد من التفاصيل المهمة حول القيم المفقودة. يتضمن ذلك موقعها 
هه ودورياتها 651001167م والارتباط 001112101 عبر الأعمدة وما إلى ذلك. 


تعد مكتبة ٥"‏ ”ع٣‏ ووذ "في بايثون مصدرًا ممتارًا لاستكشاف البيانات المفقودة. يقوم بإنشاء تصورات 
إعلامية لتحسين تحليل البيانات. 
يوضح مقتطف الكود تحليل البيانات المفقودة باستخدام Pandas‏ و .Missingno‏ 
المقالة: 
https://avichawla.substack.com/p/handle-missing-data-with-missingno‏ 
الكود: 


https://github.com/ChawlaAvi/Daily-Dose-of-Data 
Science/blob/main/Missing%20Data/Missingno.ipynb 
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